From 3354d2f21e6079cafbef92c4a1a243c1d5a7152f Mon Sep 17 00:00:00 2001
From: adonishong <adonishong@hotmail.com>
Date: Sun, 24 Aug 2025 07:40:18 +0000
Subject: [PATCH] adonishong

---
 src/__pycache__/args_config.cpython-312.pyc   | Bin 556 -> 556 bytes
 src/agents/__pycache__/Base.cpython-312.pyc   | Bin 4986 -> 4986 bytes
 .../__pycache__/Reflexion.cpython-312.pyc     | Bin 2883 -> 2883 bytes
 .../reflexion_oneshot.cpython-312.pyc         | Bin 9006 -> 10324 bytes
 src/agents/reflexion_oneshot.py               |  80 ++--
 src/agents/reflexion_oneshot_ROCm.py          |  40 +-
 src/configs/tritonbench_oneshot_config.yaml   |   5 +-
 .../TB_eval/__pycache__/utils.cpython-312.pyc | Bin 13229 -> 13229 bytes
 .../__pycache__/ProblemState.cpython-312.pyc  | Bin 1187 -> 1187 bytes
 .../__pycache__/TritonBench.cpython-312.pyc   | Bin 16573 -> 16573 bytes
 src/good/flash_decode2_phi.py                 | 143 +++++++
 src/good/l2_norm_bwd.py                       | 110 ++++++
 src/good/l2_norm_triton1.py                   |  93 +++++
 src/good/matrix_transpose.py                  |  74 ++++
 src/good/matrix_vector_multip.py              |  74 ++++
 src/good/rotary_transform.py                  | 196 ++++++++++
 src/good/sin_kernel.py                        |  86 +++++
 src/good/triton_matmul.py                     |  87 +++++
 .../__pycache__/Memory.cpython-312.pyc        | Bin 1368 -> 1368 bytes
 src/models/KimiK2.py                          |   1 +
 src/models/__pycache__/Base.cpython-312.pyc   | Bin 631 -> 631 bytes
 src/models/__pycache__/KimiK2.cpython-312.pyc | Bin 2183 -> 2183 bytes
 src/pass_exe/embedding_triton_kernel.py       | 102 +++++
 src/pass_exe/flash_decode2_phi.py             |  91 +++++
 src/pass_exe/l2_norm_bwd.py                   |  55 +++
 src/pass_exe/l2_norm_triton1.py               |  49 +++
 src/pass_exe/matrix_transpose.py              |  47 +++
 src/pass_exe/matrix_vector_multip.py          |  47 +++
 src/pass_exe/rotary_transform.py              | 171 +++++++++
 src/pass_exe/sin_kernel.py                    |  25 ++
 src/pass_exe/triton_matmul.py                 |  83 +++++
 .../prompt_for_generation.cpython-312.pyc     | Bin 9969 -> 11051 bytes
 .../prompt_for_reflection.cpython-312.pyc     | Bin 14265 -> 19711 bytes
 src/prompts/prompt_for_generation.py          |  25 ++
 src/prompts/prompt_for_reflection.py          | 147 +++++++-
 .../__pycache__/retriever.cpython-312.pyc     | Bin 3354 -> 3354 bytes
 src/soso/flash_decode2_phi.py                 | 145 ++++++++
 src/soso/l2_norm_bwd.py                       | 112 ++++++
 src/soso/l2_norm_triton1.py                   | 100 +++++
 src/soso/matrix_transpose.py                  |  74 ++++
 src/soso/matrix_vector_multip.py              |  74 ++++
 src/soso/rotary_transform.py                  | 194 ++++++++++
 src/soso/sin_kernel.py                        |  86 +++++
 src/soso/triton_matmul.py                     |  99 +++++
 src/temp/embedding_triton_kernel.py           | 144 +++++++
 src/temp/flash_decode2_phi.py                 | 141 +++++++
 ....py_gen_triton_code_155036.cpython-312.pyc | Bin 0 -> 5348 bytes
 ....py_gen_triton_code_176773.cpython-312.pyc | Bin 0 -> 5294 bytes
 ....py_gen_triton_code_180807.cpython-312.pyc | Bin 0 -> 5704 bytes
 ...l.py_gen_triton_code_18528.cpython-312.pyc | Bin 0 -> 5177 bytes
 ....py_gen_triton_code_200147.cpython-312.pyc | Bin 0 -> 5287 bytes
 ....py_gen_triton_code_211539.cpython-312.pyc | Bin 0 -> 5789 bytes
 ....py_gen_triton_code_322972.cpython-312.pyc | Bin 0 -> 4566 bytes
 ....py_gen_triton_code_347928.cpython-312.pyc | Bin 0 -> 4995 bytes
 ....py_gen_triton_code_355413.cpython-312.pyc | Bin 0 -> 4516 bytes
 ....py_gen_triton_code_429595.cpython-312.pyc | Bin 0 -> 5651 bytes
 ...l.py_gen_triton_code_43398.cpython-312.pyc | Bin 0 -> 5639 bytes
 ....py_gen_triton_code_459432.cpython-312.pyc | Bin 0 -> 5651 bytes
 ....py_gen_triton_code_474863.cpython-312.pyc | Bin 0 -> 4248 bytes
 ....py_gen_triton_code_477598.cpython-312.pyc | Bin 0 -> 5485 bytes
 ....py_gen_triton_code_480728.cpython-312.pyc | Bin 0 -> 4203 bytes
 ....py_gen_triton_code_490985.cpython-312.pyc | Bin 0 -> 5651 bytes
 ....py_gen_triton_code_507685.cpython-312.pyc | Bin 0 -> 5114 bytes
 ....py_gen_triton_code_524778.cpython-312.pyc | Bin 0 -> 5943 bytes
 ....py_gen_triton_code_533885.cpython-312.pyc | Bin 0 -> 5358 bytes
 ....py_gen_triton_code_552958.cpython-312.pyc | Bin 0 -> 5822 bytes
 ....py_gen_triton_code_574109.cpython-312.pyc | Bin 0 -> 4914 bytes
 ...l.py_gen_triton_code_58716.cpython-312.pyc | Bin 0 -> 5860 bytes
 ....py_gen_triton_code_600998.cpython-312.pyc | Bin 0 -> 5424 bytes
 ....py_gen_triton_code_605163.cpython-312.pyc | Bin 0 -> 4520 bytes
 ....py_gen_triton_code_620455.cpython-312.pyc | Bin 0 -> 4637 bytes
 ....py_gen_triton_code_635331.cpython-312.pyc | Bin 0 -> 5395 bytes
 ...l.py_gen_triton_code_64602.cpython-312.pyc | Bin 0 -> 4755 bytes
 ...l.py_gen_triton_code_68534.cpython-312.pyc | Bin 0 -> 5310 bytes
 ....py_gen_triton_code_713720.cpython-312.pyc | Bin 0 -> 5831 bytes
 ....py_gen_triton_code_721645.cpython-312.pyc | Bin 0 -> 5394 bytes
 ....py_gen_triton_code_759146.cpython-312.pyc | Bin 0 -> 4755 bytes
 ....py_gen_triton_code_764635.cpython-312.pyc | Bin 0 -> 5651 bytes
 ...l.py_gen_triton_code_76684.cpython-312.pyc | Bin 0 -> 4828 bytes
 ....py_gen_triton_code_804525.cpython-312.pyc | Bin 0 -> 5651 bytes
 ....py_gen_triton_code_823958.cpython-312.pyc | Bin 0 -> 5166 bytes
 ....py_gen_triton_code_830218.cpython-312.pyc | Bin 0 -> 5264 bytes
 ....py_gen_triton_code_837397.cpython-312.pyc | Bin 0 -> 5532 bytes
 ...l.py_gen_triton_code_92676.cpython-312.pyc | Bin 0 -> 6221 bytes
 ....py_gen_triton_code_940390.cpython-312.pyc | Bin 0 -> 5049 bytes
 ....py_gen_triton_code_965031.cpython-312.pyc | Bin 0 -> 5371 bytes
 ....py_gen_triton_code_984659.cpython-312.pyc | Bin 0 -> 4473 bytes
 ....py_gen_triton_code_992208.cpython-312.pyc | Bin 0 -> 5515 bytes
 ....py_gen_triton_code_126106.cpython-312.pyc | Bin 0 -> 6447 bytes
 ...i.py_gen_triton_code_14965.cpython-312.pyc | Bin 0 -> 6506 bytes
 ....py_gen_triton_code_198114.cpython-312.pyc | Bin 0 -> 6322 bytes
 ...i.py_gen_triton_code_23614.cpython-312.pyc | Bin 0 -> 6201 bytes
 ....py_gen_triton_code_269764.cpython-312.pyc | Bin 0 -> 6232 bytes
 ....py_gen_triton_code_335674.cpython-312.pyc | Bin 0 -> 6397 bytes
 ....py_gen_triton_code_349606.cpython-312.pyc | Bin 0 -> 6854 bytes
 ....py_gen_triton_code_369704.cpython-312.pyc | Bin 0 -> 6123 bytes
 ...i.py_gen_triton_code_38100.cpython-312.pyc | Bin 0 -> 6201 bytes
 ....py_gen_triton_code_405645.cpython-312.pyc | Bin 0 -> 6623 bytes
 ...i.py_gen_triton_code_42419.cpython-312.pyc | Bin 0 -> 6189 bytes
 ....py_gen_triton_code_450387.cpython-312.pyc | Bin 0 -> 6867 bytes
 ....py_gen_triton_code_506478.cpython-312.pyc | Bin 0 -> 6619 bytes
 ....py_gen_triton_code_543766.cpython-312.pyc | Bin 0 -> 6224 bytes
 ....py_gen_triton_code_560861.cpython-312.pyc | Bin 0 -> 6274 bytes
 ....py_gen_triton_code_576804.cpython-312.pyc | Bin 0 -> 6365 bytes
 ....py_gen_triton_code_653084.cpython-312.pyc | Bin 0 -> 6202 bytes
 ....py_gen_triton_code_661704.cpython-312.pyc | Bin 0 -> 6809 bytes
 ....py_gen_triton_code_684759.cpython-312.pyc | Bin 0 -> 6062 bytes
 ....py_gen_triton_code_690508.cpython-312.pyc | Bin 0 -> 6625 bytes
 ....py_gen_triton_code_720655.cpython-312.pyc | Bin 0 -> 6403 bytes
 ....py_gen_triton_code_721584.cpython-312.pyc | Bin 0 -> 6888 bytes
 ....py_gen_triton_code_735113.cpython-312.pyc | Bin 0 -> 6510 bytes
 ....py_gen_triton_code_739112.cpython-312.pyc | Bin 0 -> 6288 bytes
 ....py_gen_triton_code_754689.cpython-312.pyc | Bin 0 -> 6216 bytes
 ....py_gen_triton_code_802348.cpython-312.pyc | Bin 0 -> 6976 bytes
 ....py_gen_triton_code_812012.cpython-312.pyc | Bin 0 -> 6904 bytes
 ...i.py_gen_triton_code_83138.cpython-312.pyc | Bin 0 -> 6185 bytes
 ....py_gen_triton_code_870175.cpython-312.pyc | Bin 0 -> 6228 bytes
 ....py_gen_triton_code_882682.cpython-312.pyc | Bin 0 -> 6202 bytes
 ....py_gen_triton_code_900175.cpython-312.pyc | Bin 0 -> 6510 bytes
 ....py_gen_triton_code_925215.cpython-312.pyc | Bin 0 -> 6364 bytes
 ....py_gen_triton_code_959027.cpython-312.pyc | Bin 0 -> 6227 bytes
 ....py_gen_triton_code_124574.cpython-312.pyc | Bin 0 -> 10690 bytes
 ....py_gen_triton_code_178552.cpython-312.pyc | Bin 0 -> 11271 bytes
 ....py_gen_triton_code_216434.cpython-312.pyc | Bin 0 -> 12078 bytes
 ....py_gen_triton_code_219875.cpython-312.pyc | Bin 0 -> 11838 bytes
 ....py_gen_triton_code_243114.cpython-312.pyc | Bin 0 -> 13580 bytes
 ....py_gen_triton_code_291697.cpython-312.pyc | Bin 0 -> 12042 bytes
 ....py_gen_triton_code_298484.cpython-312.pyc | Bin 0 -> 15028 bytes
 ....py_gen_triton_code_308542.cpython-312.pyc | Bin 0 -> 11700 bytes
 ....py_gen_triton_code_312025.cpython-312.pyc | Bin 0 -> 13580 bytes
 ....py_gen_triton_code_357204.cpython-312.pyc | Bin 0 -> 10726 bytes
 ....py_gen_triton_code_365790.cpython-312.pyc | Bin 0 -> 10087 bytes
 ...l.py_gen_triton_code_41463.cpython-312.pyc | Bin 0 -> 17037 bytes
 ....py_gen_triton_code_430740.cpython-312.pyc | Bin 0 -> 14662 bytes
 ....py_gen_triton_code_434177.cpython-312.pyc | Bin 0 -> 13580 bytes
 ....py_gen_triton_code_461728.cpython-312.pyc | Bin 0 -> 11735 bytes
 ...l.py_gen_triton_code_48845.cpython-312.pyc | Bin 0 -> 10510 bytes
 ....py_gen_triton_code_490790.cpython-312.pyc | Bin 0 -> 10687 bytes
 ....py_gen_triton_code_511041.cpython-312.pyc | Bin 0 -> 11303 bytes
 ....py_gen_triton_code_512013.cpython-312.pyc | Bin 0 -> 10729 bytes
 ...l.py_gen_triton_code_52090.cpython-312.pyc | Bin 0 -> 11208 bytes
 ....py_gen_triton_code_530716.cpython-312.pyc | Bin 0 -> 12788 bytes
 ....py_gen_triton_code_635842.cpython-312.pyc | Bin 0 -> 10504 bytes
 ....py_gen_triton_code_718301.cpython-312.pyc | Bin 0 -> 11366 bytes
 ....py_gen_triton_code_731602.cpython-312.pyc | Bin 0 -> 9375 bytes
 ...l.py_gen_triton_code_76683.cpython-312.pyc | Bin 0 -> 11272 bytes
 ....py_gen_triton_code_769812.cpython-312.pyc | Bin 0 -> 11689 bytes
 ....py_gen_triton_code_790411.cpython-312.pyc | Bin 0 -> 12519 bytes
 ....py_gen_triton_code_811684.cpython-312.pyc | Bin 0 -> 13580 bytes
 ....py_gen_triton_code_815235.cpython-312.pyc | Bin 0 -> 14927 bytes
 ....py_gen_triton_code_816192.cpython-312.pyc | Bin 0 -> 16119 bytes
 ....py_gen_triton_code_838410.cpython-312.pyc | Bin 0 -> 10256 bytes
 ....py_gen_triton_code_886215.cpython-312.pyc | Bin 0 -> 11420 bytes
 ....py_gen_triton_code_891149.cpython-312.pyc | Bin 0 -> 10306 bytes
 ....py_gen_triton_code_912380.cpython-312.pyc | Bin 0 -> 11091 bytes
 ....py_gen_triton_code_925632.cpython-312.pyc | Bin 0 -> 16181 bytes
 ....py_gen_triton_code_927195.cpython-312.pyc | Bin 0 -> 14170 bytes
 ...l.py_gen_triton_code_93329.cpython-312.pyc | Bin 0 -> 13579 bytes
 ....py_gen_triton_code_942564.cpython-312.pyc | Bin 0 -> 10905 bytes
 ....py_gen_triton_code_977481.cpython-312.pyc | Bin 0 -> 10397 bytes
 ....py_gen_triton_code_991002.cpython-312.pyc | Bin 0 -> 10974 bytes
 ....py_gen_triton_code_995030.cpython-312.pyc | Bin 0 -> 11463 bytes
 ....py_gen_triton_code_143388.cpython-312.pyc | Bin 0 -> 4463 bytes
 ....py_gen_triton_code_167554.cpython-312.pyc | Bin 0 -> 4386 bytes
 ....py_gen_triton_code_215639.cpython-312.pyc | Bin 0 -> 4522 bytes
 ....py_gen_triton_code_220059.cpython-312.pyc | Bin 0 -> 3963 bytes
 ...d.py_gen_triton_code_28664.cpython-312.pyc | Bin 0 -> 4168 bytes
 ....py_gen_triton_code_338946.cpython-312.pyc | Bin 0 -> 5090 bytes
 ....py_gen_triton_code_347725.cpython-312.pyc | Bin 0 -> 3936 bytes
 ....py_gen_triton_code_387667.cpython-312.pyc | Bin 0 -> 4330 bytes
 ....py_gen_triton_code_404776.cpython-312.pyc | Bin 0 -> 4709 bytes
 ....py_gen_triton_code_414029.cpython-312.pyc | Bin 0 -> 4266 bytes
 ....py_gen_triton_code_419949.cpython-312.pyc | Bin 0 -> 4266 bytes
 ....py_gen_triton_code_433589.cpython-312.pyc | Bin 0 -> 4625 bytes
 ....py_gen_triton_code_459560.cpython-312.pyc | Bin 0 -> 5092 bytes
 ....py_gen_triton_code_486455.cpython-312.pyc | Bin 0 -> 4554 bytes
 ....py_gen_triton_code_493519.cpython-312.pyc | Bin 0 -> 4522 bytes
 ....py_gen_triton_code_570539.cpython-312.pyc | Bin 0 -> 4424 bytes
 ....py_gen_triton_code_597752.cpython-312.pyc | Bin 0 -> 4266 bytes
 ....py_gen_triton_code_637799.cpython-312.pyc | Bin 0 -> 4394 bytes
 ....py_gen_triton_code_640557.cpython-312.pyc | Bin 0 -> 4409 bytes
 ....py_gen_triton_code_712104.cpython-312.pyc | Bin 0 -> 4253 bytes
 ....py_gen_triton_code_786715.cpython-312.pyc | Bin 0 -> 4266 bytes
 ....py_gen_triton_code_827439.cpython-312.pyc | Bin 0 -> 4442 bytes
 ....py_gen_triton_code_843690.cpython-312.pyc | Bin 0 -> 4395 bytes
 ....py_gen_triton_code_864396.cpython-312.pyc | Bin 0 -> 5150 bytes
 ....py_gen_triton_code_885795.cpython-312.pyc | Bin 0 -> 4384 bytes
 ....py_gen_triton_code_960121.cpython-312.pyc | Bin 0 -> 4428 bytes
 ....py_gen_triton_code_972847.cpython-312.pyc | Bin 0 -> 4431 bytes
 ....py_gen_triton_code_212491.cpython-312.pyc | Bin 0 -> 3287 bytes
 ....py_gen_triton_code_254823.cpython-312.pyc | Bin 0 -> 3485 bytes
 ....py_gen_triton_code_318959.cpython-312.pyc | Bin 0 -> 3477 bytes
 ....py_gen_triton_code_336206.cpython-312.pyc | Bin 0 -> 3591 bytes
 ....py_gen_triton_code_357644.cpython-312.pyc | Bin 0 -> 3540 bytes
 ....py_gen_triton_code_392963.cpython-312.pyc | Bin 0 -> 3577 bytes
 ....py_gen_triton_code_403404.cpython-312.pyc | Bin 0 -> 3782 bytes
 ....py_gen_triton_code_466457.cpython-312.pyc | Bin 0 -> 3577 bytes
 ....py_gen_triton_code_598128.cpython-312.pyc | Bin 0 -> 3465 bytes
 ....py_gen_triton_code_599125.cpython-312.pyc | Bin 0 -> 3443 bytes
 ....py_gen_triton_code_637798.cpython-312.pyc | Bin 0 -> 3354 bytes
 ....py_gen_triton_code_650964.cpython-312.pyc | Bin 0 -> 3507 bytes
 ....py_gen_triton_code_674736.cpython-312.pyc | Bin 0 -> 3425 bytes
 ....py_gen_triton_code_786517.cpython-312.pyc | Bin 0 -> 3577 bytes
 ....py_gen_triton_code_800477.cpython-312.pyc | Bin 0 -> 3577 bytes
 ....py_gen_triton_code_839169.cpython-312.pyc | Bin 0 -> 3741 bytes
 ....py_gen_triton_code_846578.cpython-312.pyc | Bin 0 -> 3434 bytes
 ....py_gen_triton_code_964700.cpython-312.pyc | Bin 0 -> 3577 bytes
 ....py_gen_triton_code_965300.cpython-312.pyc | Bin 0 -> 3663 bytes
 ....py_gen_triton_code_973282.cpython-312.pyc | Bin 0 -> 3741 bytes
 ....py_gen_triton_code_114093.cpython-312.pyc | Bin 0 -> 3354 bytes
 ...e.py_gen_triton_code_11496.cpython-312.pyc | Bin 0 -> 2632 bytes
 ...e.py_gen_triton_code_14792.cpython-312.pyc | Bin 0 -> 3754 bytes
 ....py_gen_triton_code_160821.cpython-312.pyc | Bin 0 -> 3042 bytes
 ....py_gen_triton_code_205496.cpython-312.pyc | Bin 0 -> 2747 bytes
 ....py_gen_triton_code_216901.cpython-312.pyc | Bin 0 -> 2331 bytes
 ....py_gen_triton_code_274099.cpython-312.pyc | Bin 0 -> 2950 bytes
 ....py_gen_triton_code_369711.cpython-312.pyc | Bin 0 -> 3264 bytes
 ....py_gen_triton_code_412290.cpython-312.pyc | Bin 0 -> 2521 bytes
 ....py_gen_triton_code_429164.cpython-312.pyc | Bin 0 -> 2909 bytes
 ....py_gen_triton_code_469771.cpython-312.pyc | Bin 0 -> 3181 bytes
 ....py_gen_triton_code_493615.cpython-312.pyc | Bin 0 -> 2470 bytes
 ....py_gen_triton_code_529486.cpython-312.pyc | Bin 0 -> 2323 bytes
 ....py_gen_triton_code_571713.cpython-312.pyc | Bin 0 -> 2713 bytes
 ....py_gen_triton_code_580037.cpython-312.pyc | Bin 0 -> 3061 bytes
 ....py_gen_triton_code_608628.cpython-312.pyc | Bin 0 -> 2747 bytes
 ....py_gen_triton_code_619005.cpython-312.pyc | Bin 0 -> 2686 bytes
 ....py_gen_triton_code_620806.cpython-312.pyc | Bin 0 -> 3307 bytes
 ....py_gen_triton_code_671609.cpython-312.pyc | Bin 0 -> 3053 bytes
 ....py_gen_triton_code_724790.cpython-312.pyc | Bin 0 -> 2938 bytes
 ....py_gen_triton_code_738982.cpython-312.pyc | Bin 0 -> 2747 bytes
 ...e.py_gen_triton_code_74175.cpython-312.pyc | Bin 0 -> 2746 bytes
 ....py_gen_triton_code_757083.cpython-312.pyc | Bin 0 -> 3146 bytes
 ....py_gen_triton_code_759138.cpython-312.pyc | Bin 0 -> 2872 bytes
 ....py_gen_triton_code_780911.cpython-312.pyc | Bin 0 -> 3002 bytes
 ....py_gen_triton_code_783719.cpython-312.pyc | Bin 0 -> 2925 bytes
 ...e.py_gen_triton_code_81159.cpython-312.pyc | Bin 0 -> 3121 bytes
 ....py_gen_triton_code_853096.cpython-312.pyc | Bin 0 -> 2793 bytes
 ....py_gen_triton_code_869907.cpython-312.pyc | Bin 0 -> 3087 bytes
 ....py_gen_triton_code_879575.cpython-312.pyc | Bin 0 -> 2996 bytes
 ....py_gen_triton_code_892743.cpython-312.pyc | Bin 0 -> 2610 bytes
 ....py_gen_triton_code_917011.cpython-312.pyc | Bin 0 -> 2737 bytes
 ....py_gen_triton_code_930305.cpython-312.pyc | Bin 0 -> 3115 bytes
 ....py_gen_triton_code_953212.cpython-312.pyc | Bin 0 -> 2569 bytes
 ....py_gen_triton_code_984648.cpython-312.pyc | Bin 0 -> 2593 bytes
 ....py_gen_triton_code_997014.cpython-312.pyc | Bin 0 -> 2822 bytes
 ....py_gen_triton_code_164112.cpython-312.pyc | Bin 0 -> 3896 bytes
 ....py_gen_triton_code_205689.cpython-312.pyc | Bin 0 -> 4519 bytes
 ....py_gen_triton_code_334537.cpython-312.pyc | Bin 0 -> 3885 bytes
 ....py_gen_triton_code_370413.cpython-312.pyc | Bin 0 -> 4204 bytes
 ....py_gen_triton_code_424820.cpython-312.pyc | Bin 0 -> 4081 bytes
 ....py_gen_triton_code_554113.cpython-312.pyc | Bin 0 -> 3711 bytes
 ....py_gen_triton_code_554981.cpython-312.pyc | Bin 0 -> 4097 bytes
 ....py_gen_triton_code_561330.cpython-312.pyc | Bin 0 -> 3936 bytes
 ....py_gen_triton_code_686366.cpython-312.pyc | Bin 0 -> 4136 bytes
 ...p.py_gen_triton_code_80693.cpython-312.pyc | Bin 0 -> 4032 bytes
 ....py_gen_triton_code_105954.cpython-312.pyc | Bin 0 -> 12470 bytes
 ....py_gen_triton_code_260701.cpython-312.pyc | Bin 0 -> 8238 bytes
 ....py_gen_triton_code_329295.cpython-312.pyc | Bin 0 -> 10476 bytes
 ....py_gen_triton_code_338032.cpython-312.pyc | Bin 0 -> 11811 bytes
 ....py_gen_triton_code_339628.cpython-312.pyc | Bin 0 -> 10978 bytes
 ....py_gen_triton_code_344391.cpython-312.pyc | Bin 0 -> 8238 bytes
 ....py_gen_triton_code_373163.cpython-312.pyc | Bin 0 -> 10654 bytes
 ....py_gen_triton_code_385268.cpython-312.pyc | Bin 0 -> 11620 bytes
 ....py_gen_triton_code_405620.cpython-312.pyc | Bin 0 -> 9027 bytes
 ....py_gen_triton_code_431864.cpython-312.pyc | Bin 0 -> 8238 bytes
 ...m.py_gen_triton_code_44150.cpython-312.pyc | Bin 0 -> 8781 bytes
 ....py_gen_triton_code_450091.cpython-312.pyc | Bin 0 -> 10876 bytes
 ....py_gen_triton_code_460195.cpython-312.pyc | Bin 0 -> 11369 bytes
 ....py_gen_triton_code_527413.cpython-312.pyc | Bin 0 -> 11712 bytes
 ....py_gen_triton_code_540784.cpython-312.pyc | Bin 0 -> 10442 bytes
 ....py_gen_triton_code_555768.cpython-312.pyc | Bin 0 -> 13325 bytes
 ....py_gen_triton_code_634902.cpython-312.pyc | Bin 0 -> 11124 bytes
 ....py_gen_triton_code_669031.cpython-312.pyc | Bin 0 -> 10630 bytes
 ....py_gen_triton_code_711258.cpython-312.pyc | Bin 0 -> 7884 bytes
 ....py_gen_triton_code_816058.cpython-312.pyc | Bin 0 -> 7990 bytes
 ....py_gen_triton_code_824557.cpython-312.pyc | Bin 0 -> 11368 bytes
 ....py_gen_triton_code_840463.cpython-312.pyc | Bin 0 -> 7337 bytes
 ....py_gen_triton_code_843724.cpython-312.pyc | Bin 0 -> 8238 bytes
 ....py_gen_triton_code_893238.cpython-312.pyc | Bin 0 -> 9022 bytes
 ....py_gen_triton_code_915460.cpython-312.pyc | Bin 0 -> 10519 bytes
 ....py_gen_triton_code_925133.cpython-312.pyc | Bin 0 -> 11312 bytes
 ....py_gen_triton_code_939610.cpython-312.pyc | Bin 0 -> 11631 bytes
 ....py_gen_triton_code_946209.cpython-312.pyc | Bin 0 -> 8724 bytes
 ...m.py_gen_triton_code_99563.cpython-312.pyc | Bin 0 -> 8967 bytes
 ....py_gen_triton_code_123151.cpython-312.pyc | Bin 0 -> 2855 bytes
 ....py_gen_triton_code_179581.cpython-312.pyc | Bin 0 -> 2836 bytes
 ....py_gen_triton_code_370053.cpython-312.pyc | Bin 0 -> 2846 bytes
 ....py_gen_triton_code_473025.cpython-312.pyc | Bin 0 -> 2857 bytes
 ....py_gen_triton_code_502063.cpython-312.pyc | Bin 0 -> 2910 bytes
 ...l.py_gen_triton_code_50482.cpython-312.pyc | Bin 0 -> 2920 bytes
 ....py_gen_triton_code_557502.cpython-312.pyc | Bin 0 -> 2847 bytes
 ....py_gen_triton_code_560359.cpython-312.pyc | Bin 0 -> 2851 bytes
 ....py_gen_triton_code_794865.cpython-312.pyc | Bin 0 -> 2940 bytes
 ....py_gen_triton_code_834634.cpython-312.pyc | Bin 0 -> 2862 bytes
 ....py_gen_triton_code_931009.cpython-312.pyc | Bin 0 -> 2862 bytes
 ....py_gen_triton_code_108037.cpython-312.pyc | Bin 0 -> 5497 bytes
 ...l.py_gen_triton_code_12912.cpython-312.pyc | Bin 0 -> 5241 bytes
 ....py_gen_triton_code_186313.cpython-312.pyc | Bin 0 -> 5366 bytes
 ....py_gen_triton_code_284744.cpython-312.pyc | Bin 0 -> 5000 bytes
 ....py_gen_triton_code_366643.cpython-312.pyc | Bin 0 -> 5531 bytes
 ....py_gen_triton_code_391924.cpython-312.pyc | Bin 0 -> 6371 bytes
 ....py_gen_triton_code_395140.cpython-312.pyc | Bin 0 -> 5126 bytes
 ....py_gen_triton_code_417385.cpython-312.pyc | Bin 0 -> 5271 bytes
 ....py_gen_triton_code_654780.cpython-312.pyc | Bin 0 -> 5407 bytes
 ....py_gen_triton_code_769893.cpython-312.pyc | Bin 0 -> 5407 bytes
 ....py_gen_triton_code_993568.cpython-312.pyc | Bin 0 -> 5481 bytes
 ...triton_kernel.py_gen_triton_code_155036.py | 214 +++++++++++
 ...kernel.py_gen_triton_code_155036.py.stderr |   0
 ...kernel.py_gen_triton_code_155036.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_176773.py | 214 +++++++++++
 ...kernel.py_gen_triton_code_176773.py.stderr |   0
 ...kernel.py_gen_triton_code_176773.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_180807.py | 244 ++++++++++++
 ...kernel.py_gen_triton_code_180807.py.stderr |   0
 ...kernel.py_gen_triton_code_180807.py.stdout |   1 +
 ..._triton_kernel.py_gen_triton_code_18528.py | 195 ++++++++++
 ..._kernel.py_gen_triton_code_18528.py.stderr |   0
 ..._kernel.py_gen_triton_code_18528.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_200147.py | 235 ++++++++++++
 ...kernel.py_gen_triton_code_200147.py.stderr |   0
 ...kernel.py_gen_triton_code_200147.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_211539.py | 205 ++++++++++
 ...kernel.py_gen_triton_code_211539.py.stderr |   0
 ...kernel.py_gen_triton_code_211539.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_322972.py | 181 +++++++++
 ...kernel.py_gen_triton_code_322972.py.stderr |   0
 ...kernel.py_gen_triton_code_322972.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_347928.py | 198 ++++++++++
 ...kernel.py_gen_triton_code_347928.py.stderr |   0
 ...kernel.py_gen_triton_code_347928.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_355413.py | 195 ++++++++++
 ...kernel.py_gen_triton_code_355413.py.stderr |   0
 ...kernel.py_gen_triton_code_355413.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_429595.py | 190 ++++++++++
 ...kernel.py_gen_triton_code_429595.py.stderr |   0
 ...kernel.py_gen_triton_code_429595.py.stdout |   1 +
 ..._triton_kernel.py_gen_triton_code_43398.py | 222 +++++++++++
 ..._kernel.py_gen_triton_code_43398.py.stderr |   0
 ..._kernel.py_gen_triton_code_43398.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_459432.py | 190 ++++++++++
 ...kernel.py_gen_triton_code_459432.py.stderr |   0
 ...kernel.py_gen_triton_code_459432.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_474863.py | 189 ++++++++++
 ...kernel.py_gen_triton_code_474863.py.stderr |   0
 ...kernel.py_gen_triton_code_474863.py.stdout |  15 +
 ...triton_kernel.py_gen_triton_code_477598.py | 218 +++++++++++
 ...kernel.py_gen_triton_code_477598.py.stderr |   0
 ...kernel.py_gen_triton_code_477598.py.stdout |  14 +
 ...triton_kernel.py_gen_triton_code_480728.py | 187 ++++++++++
 ...kernel.py_gen_triton_code_480728.py.stderr |   0
 ...kernel.py_gen_triton_code_480728.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_490985.py | 190 ++++++++++
 ...kernel.py_gen_triton_code_490985.py.stderr |   0
 ...kernel.py_gen_triton_code_490985.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_507685.py | 228 ++++++++++++
 ...kernel.py_gen_triton_code_507685.py.stderr |   0
 ...kernel.py_gen_triton_code_507685.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_524778.py | 226 +++++++++++
 ...kernel.py_gen_triton_code_524778.py.stderr |   0
 ...kernel.py_gen_triton_code_524778.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_533885.py | 188 ++++++++++
 ...kernel.py_gen_triton_code_533885.py.stderr |   0
 ...kernel.py_gen_triton_code_533885.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_552958.py | 231 ++++++++++++
 ...kernel.py_gen_triton_code_552958.py.stderr |   0
 ...kernel.py_gen_triton_code_552958.py.stdout |  15 +
 ...triton_kernel.py_gen_triton_code_574109.py | 210 +++++++++++
 ...kernel.py_gen_triton_code_574109.py.stderr |   0
 ...kernel.py_gen_triton_code_574109.py.stdout |   1 +
 ..._triton_kernel.py_gen_triton_code_58716.py | 225 +++++++++++
 ..._kernel.py_gen_triton_code_58716.py.stderr |   0
 ..._kernel.py_gen_triton_code_58716.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_600998.py | 182 +++++++++
 ...kernel.py_gen_triton_code_600998.py.stderr |   0
 ...kernel.py_gen_triton_code_600998.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_605163.py | 190 ++++++++++
 ...kernel.py_gen_triton_code_605163.py.stderr |   0
 ...kernel.py_gen_triton_code_605163.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_620455.py | 178 +++++++++
 ...kernel.py_gen_triton_code_620455.py.stderr |   0
 ...kernel.py_gen_triton_code_620455.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_635331.py | 182 +++++++++
 ...kernel.py_gen_triton_code_635331.py.stderr |   0
 ...kernel.py_gen_triton_code_635331.py.stdout |   1 +
 ..._triton_kernel.py_gen_triton_code_64602.py | 189 ++++++++++
 ..._kernel.py_gen_triton_code_64602.py.stderr |   0
 ..._kernel.py_gen_triton_code_64602.py.stdout |   1 +
 ..._triton_kernel.py_gen_triton_code_68534.py | 205 ++++++++++
 ..._kernel.py_gen_triton_code_68534.py.stderr |   0
 ..._kernel.py_gen_triton_code_68534.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_713720.py | 191 ++++++++++
 ...kernel.py_gen_triton_code_713720.py.stderr |   0
 ...kernel.py_gen_triton_code_713720.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_721645.py | 232 ++++++++++++
 ...kernel.py_gen_triton_code_721645.py.stderr |   0
 ...kernel.py_gen_triton_code_721645.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_759146.py | 181 +++++++++
 ...kernel.py_gen_triton_code_759146.py.stderr |   0
 ...kernel.py_gen_triton_code_759146.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_764635.py | 197 ++++++++++
 ...kernel.py_gen_triton_code_764635.py.stderr |   0
 ...kernel.py_gen_triton_code_764635.py.stdout |   1 +
 ..._triton_kernel.py_gen_triton_code_76684.py | 188 ++++++++++
 ..._kernel.py_gen_triton_code_76684.py.stderr |   0
 ..._kernel.py_gen_triton_code_76684.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_804525.py | 190 ++++++++++
 ...kernel.py_gen_triton_code_804525.py.stderr |   0
 ...kernel.py_gen_triton_code_804525.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_823958.py | 195 ++++++++++
 ...kernel.py_gen_triton_code_823958.py.stderr |   0
 ...kernel.py_gen_triton_code_823958.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_830218.py | 195 ++++++++++
 ...kernel.py_gen_triton_code_830218.py.stderr |   0
 ...kernel.py_gen_triton_code_830218.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_837397.py | 250 +++++++++++++
 ...kernel.py_gen_triton_code_837397.py.stderr |   0
 ...kernel.py_gen_triton_code_837397.py.stdout |   1 +
 ..._triton_kernel.py_gen_triton_code_92676.py | 220 +++++++++++
 ..._kernel.py_gen_triton_code_92676.py.stderr |   0
 ..._kernel.py_gen_triton_code_92676.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_940390.py | 190 ++++++++++
 ...kernel.py_gen_triton_code_940390.py.stderr |   0
 ...kernel.py_gen_triton_code_940390.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_965031.py | 196 ++++++++++
 ...kernel.py_gen_triton_code_965031.py.stderr |   0
 ...kernel.py_gen_triton_code_965031.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_984659.py | 174 +++++++++
 ...kernel.py_gen_triton_code_984659.py.stderr |   0
 ...kernel.py_gen_triton_code_984659.py.stdout |   1 +
 ...triton_kernel.py_gen_triton_code_992208.py | 227 +++++++++++
 ...kernel.py_gen_triton_code_992208.py.stderr |   0
 ...kernel.py_gen_triton_code_992208.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_126106.py | 201 ++++++++++
 ...e2_phi.py_gen_triton_code_126106.py.stderr |   0
 ...e2_phi.py_gen_triton_code_126106.py.stdout |   1 +
 ...sh_decode2_phi.py_gen_triton_code_14965.py | 211 +++++++++++
 ...de2_phi.py_gen_triton_code_14965.py.stderr |   0
 ...de2_phi.py_gen_triton_code_14965.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_198114.py | 210 +++++++++++
 ...e2_phi.py_gen_triton_code_198114.py.stderr |   0
 ...e2_phi.py_gen_triton_code_198114.py.stdout |   1 +
 ...sh_decode2_phi.py_gen_triton_code_23614.py | 203 ++++++++++
 ...de2_phi.py_gen_triton_code_23614.py.stderr |   0
 ...de2_phi.py_gen_triton_code_23614.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_269764.py | 212 +++++++++++
 ...e2_phi.py_gen_triton_code_269764.py.stderr |   0
 ...e2_phi.py_gen_triton_code_269764.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_335674.py | 198 ++++++++++
 ...e2_phi.py_gen_triton_code_335674.py.stderr |   0
 ...e2_phi.py_gen_triton_code_335674.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_349606.py | 225 +++++++++++
 ...e2_phi.py_gen_triton_code_349606.py.stderr |   0
 ...e2_phi.py_gen_triton_code_349606.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_369704.py | 208 +++++++++++
 ...e2_phi.py_gen_triton_code_369704.py.stderr |   0
 ...e2_phi.py_gen_triton_code_369704.py.stdout |   1 +
 ...sh_decode2_phi.py_gen_triton_code_38100.py | 203 ++++++++++
 ...de2_phi.py_gen_triton_code_38100.py.stderr |   0
 ...de2_phi.py_gen_triton_code_38100.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_405645.py | 214 +++++++++++
 ...e2_phi.py_gen_triton_code_405645.py.stderr |   0
 ...e2_phi.py_gen_triton_code_405645.py.stdout |   1 +
 ...sh_decode2_phi.py_gen_triton_code_42419.py | 200 ++++++++++
 ...de2_phi.py_gen_triton_code_42419.py.stderr |   0
 ...de2_phi.py_gen_triton_code_42419.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_450387.py | 224 +++++++++++
 ...e2_phi.py_gen_triton_code_450387.py.stderr |   0
 ...e2_phi.py_gen_triton_code_450387.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_506478.py | 212 +++++++++++
 ...e2_phi.py_gen_triton_code_506478.py.stderr |   0
 ...e2_phi.py_gen_triton_code_506478.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_543766.py | 209 +++++++++++
 ...e2_phi.py_gen_triton_code_543766.py.stderr |   0
 ...e2_phi.py_gen_triton_code_543766.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_560861.py | 212 +++++++++++
 ...e2_phi.py_gen_triton_code_560861.py.stderr |   0
 ...e2_phi.py_gen_triton_code_560861.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_576804.py | 197 ++++++++++
 ...e2_phi.py_gen_triton_code_576804.py.stderr |   0
 ...e2_phi.py_gen_triton_code_576804.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_653084.py | 203 ++++++++++
 ...e2_phi.py_gen_triton_code_653084.py.stderr |   0
 ...e2_phi.py_gen_triton_code_653084.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_661704.py | 223 +++++++++++
 ...e2_phi.py_gen_triton_code_661704.py.stderr |   0
 ...e2_phi.py_gen_triton_code_661704.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_684759.py | 213 +++++++++++
 ...e2_phi.py_gen_triton_code_684759.py.stderr |   0
 ...e2_phi.py_gen_triton_code_684759.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_690508.py | 214 +++++++++++
 ...e2_phi.py_gen_triton_code_690508.py.stderr |   0
 ...e2_phi.py_gen_triton_code_690508.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_720655.py | 214 +++++++++++
 ...e2_phi.py_gen_triton_code_720655.py.stderr |   0
 ...e2_phi.py_gen_triton_code_720655.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_721584.py | 219 +++++++++++
 ...e2_phi.py_gen_triton_code_721584.py.stderr |   0
 ...e2_phi.py_gen_triton_code_721584.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_735113.py | 214 +++++++++++
 ...e2_phi.py_gen_triton_code_735113.py.stderr |   0
 ...e2_phi.py_gen_triton_code_735113.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_739112.py | 212 +++++++++++
 ...e2_phi.py_gen_triton_code_739112.py.stderr |   0
 ...e2_phi.py_gen_triton_code_739112.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_754689.py | 218 +++++++++++
 ...e2_phi.py_gen_triton_code_754689.py.stderr |   0
 ...e2_phi.py_gen_triton_code_754689.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_802348.py | 241 ++++++++++++
 ...e2_phi.py_gen_triton_code_802348.py.stderr |   0
 ...e2_phi.py_gen_triton_code_802348.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_812012.py | 226 +++++++++++
 ...e2_phi.py_gen_triton_code_812012.py.stderr |   0
 ...e2_phi.py_gen_triton_code_812012.py.stdout |   1 +
 ...sh_decode2_phi.py_gen_triton_code_83138.py | 202 ++++++++++
 ...de2_phi.py_gen_triton_code_83138.py.stderr |   0
 ...de2_phi.py_gen_triton_code_83138.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_870175.py | 206 ++++++++++
 ...e2_phi.py_gen_triton_code_870175.py.stderr |   0
 ...e2_phi.py_gen_triton_code_870175.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_882682.py | 203 ++++++++++
 ...e2_phi.py_gen_triton_code_882682.py.stderr |   0
 ...e2_phi.py_gen_triton_code_882682.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_900175.py | 214 +++++++++++
 ...e2_phi.py_gen_triton_code_900175.py.stderr |   0
 ...e2_phi.py_gen_triton_code_900175.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_925215.py | 218 +++++++++++
 ...e2_phi.py_gen_triton_code_925215.py.stderr |   0
 ...e2_phi.py_gen_triton_code_925215.py.stdout |   1 +
 ...h_decode2_phi.py_gen_triton_code_959027.py | 193 ++++++++++
 ...e2_phi.py_gen_triton_code_959027.py.stderr |   0
 ...e2_phi.py_gen_triton_code_959027.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_124574.py  | 197 ++++++++++
 ...matmul.py_gen_triton_code_124574.py.stderr |   2 +
 ...matmul.py_gen_triton_code_124574.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_178552.py  | 173 +++++++++
 ...matmul.py_gen_triton_code_178552.py.stderr |   0
 ...matmul.py_gen_triton_code_178552.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_216434.py  | 217 +++++++++++
 ...matmul.py_gen_triton_code_216434.py.stderr |   0
 ...matmul.py_gen_triton_code_216434.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_219875.py  | 216 +++++++++++
 ...matmul.py_gen_triton_code_219875.py.stderr |   0
 ...matmul.py_gen_triton_code_219875.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_243114.py  | 250 +++++++++++++
 ...matmul.py_gen_triton_code_243114.py.stderr |   0
 ...matmul.py_gen_triton_code_243114.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_291697.py  | 257 +++++++++++++
 ...matmul.py_gen_triton_code_291697.py.stderr |   0
 ...matmul.py_gen_triton_code_291697.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_298484.py  | 290 +++++++++++++++
 ...matmul.py_gen_triton_code_298484.py.stderr |   0
 ...matmul.py_gen_triton_code_298484.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_308542.py  | 215 +++++++++++
 ...matmul.py_gen_triton_code_308542.py.stderr |   0
 ...matmul.py_gen_triton_code_308542.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_312025.py  | 250 +++++++++++++
 ...matmul.py_gen_triton_code_312025.py.stderr |   0
 ...matmul.py_gen_triton_code_312025.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_357204.py  | 226 +++++++++++
 ...matmul.py_gen_triton_code_357204.py.stderr |   0
 ...matmul.py_gen_triton_code_357204.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_365790.py  | 177 +++++++++
 ...matmul.py_gen_triton_code_365790.py.stderr |   0
 ...matmul.py_gen_triton_code_365790.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_41463.py   | 313 ++++++++++++++++
 ..._matmul.py_gen_triton_code_41463.py.stderr |   0
 ..._matmul.py_gen_triton_code_41463.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_430740.py  | 252 +++++++++++++
 ...matmul.py_gen_triton_code_430740.py.stderr |   2 +
 ...matmul.py_gen_triton_code_430740.py.stdout |  15 +
 .../int4_matmul.py_gen_triton_code_434177.py  | 250 +++++++++++++
 ...matmul.py_gen_triton_code_434177.py.stderr |   0
 ...matmul.py_gen_triton_code_434177.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_461728.py  | 241 ++++++++++++
 ...matmul.py_gen_triton_code_461728.py.stderr |   0
 ...matmul.py_gen_triton_code_461728.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_48845.py   | 190 ++++++++++
 ..._matmul.py_gen_triton_code_48845.py.stderr |   0
 ..._matmul.py_gen_triton_code_48845.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_490790.py  | 198 ++++++++++
 ...matmul.py_gen_triton_code_490790.py.stderr |   0
 ...matmul.py_gen_triton_code_490790.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_511041.py  | 203 ++++++++++
 ...matmul.py_gen_triton_code_511041.py.stderr |   0
 ...matmul.py_gen_triton_code_511041.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_512013.py  | 199 ++++++++++
 ...matmul.py_gen_triton_code_512013.py.stderr |   0
 ...matmul.py_gen_triton_code_512013.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_52090.py   | 180 +++++++++
 ..._matmul.py_gen_triton_code_52090.py.stderr |   0
 ..._matmul.py_gen_triton_code_52090.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_530716.py  | 255 +++++++++++++
 ...matmul.py_gen_triton_code_530716.py.stderr |   0
 ...matmul.py_gen_triton_code_530716.py.stdout |  15 +
 .../int4_matmul.py_gen_triton_code_635842.py  | 205 ++++++++++
 ...matmul.py_gen_triton_code_635842.py.stderr |   0
 ...matmul.py_gen_triton_code_635842.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_718301.py  | 185 +++++++++
 ...matmul.py_gen_triton_code_718301.py.stderr |   0
 ...matmul.py_gen_triton_code_718301.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_731602.py  | 193 ++++++++++
 ...matmul.py_gen_triton_code_731602.py.stderr |   0
 ...matmul.py_gen_triton_code_731602.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_732866.py  | 250 +++++++++++++
 .../int4_matmul.py_gen_triton_code_76683.py   | 202 ++++++++++
 ..._matmul.py_gen_triton_code_76683.py.stderr |   0
 ..._matmul.py_gen_triton_code_76683.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_769812.py  | 242 ++++++++++++
 ...matmul.py_gen_triton_code_769812.py.stderr |   0
 ...matmul.py_gen_triton_code_769812.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_790411.py  | 249 +++++++++++++
 ...matmul.py_gen_triton_code_790411.py.stderr |   0
 ...matmul.py_gen_triton_code_790411.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_811684.py  | 250 +++++++++++++
 ...matmul.py_gen_triton_code_811684.py.stderr |   0
 ...matmul.py_gen_triton_code_811684.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_815235.py  | 312 ++++++++++++++++
 ...matmul.py_gen_triton_code_815235.py.stderr |   0
 ...matmul.py_gen_triton_code_815235.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_816192.py  | 299 +++++++++++++++
 ...matmul.py_gen_triton_code_816192.py.stderr |   0
 ...matmul.py_gen_triton_code_816192.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_838410.py  | 215 +++++++++++
 ...matmul.py_gen_triton_code_838410.py.stderr |   0
 ...matmul.py_gen_triton_code_838410.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_865534.py  | 313 ++++++++++++++++
 .../int4_matmul.py_gen_triton_code_886215.py  | 231 ++++++++++++
 ...matmul.py_gen_triton_code_886215.py.stderr |   0
 ...matmul.py_gen_triton_code_886215.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_891149.py  | 243 ++++++++++++
 ...matmul.py_gen_triton_code_891149.py.stderr |   0
 ...matmul.py_gen_triton_code_891149.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_912380.py  | 232 ++++++++++++
 ...matmul.py_gen_triton_code_912380.py.stderr |   0
 ...matmul.py_gen_triton_code_912380.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_925632.py  | 299 +++++++++++++++
 ...matmul.py_gen_triton_code_925632.py.stderr |   0
 ...matmul.py_gen_triton_code_925632.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_927195.py  | 277 ++++++++++++++
 ...matmul.py_gen_triton_code_927195.py.stderr |   2 +
 ...matmul.py_gen_triton_code_927195.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_93329.py   | 250 +++++++++++++
 ..._matmul.py_gen_triton_code_93329.py.stderr |   0
 ..._matmul.py_gen_triton_code_93329.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_942564.py  | 229 ++++++++++++
 ...matmul.py_gen_triton_code_942564.py.stderr |   0
 ...matmul.py_gen_triton_code_942564.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_977481.py  | 205 ++++++++++
 ...matmul.py_gen_triton_code_977481.py.stderr |   0
 ...matmul.py_gen_triton_code_977481.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_991002.py  | 214 +++++++++++
 ...matmul.py_gen_triton_code_991002.py.stderr |   0
 ...matmul.py_gen_triton_code_991002.py.stdout |   1 +
 .../int4_matmul.py_gen_triton_code_995030.py  | 234 ++++++++++++
 ...matmul.py_gen_triton_code_995030.py.stderr |   0
 ...matmul.py_gen_triton_code_995030.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_143388.py  | 137 +++++++
 ...rm_bwd.py_gen_triton_code_143388.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_143388.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_167554.py  | 139 +++++++
 ...rm_bwd.py_gen_triton_code_167554.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_167554.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_215639.py  | 139 +++++++
 ...rm_bwd.py_gen_triton_code_215639.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_215639.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_220059.py  | 148 ++++++++
 ...rm_bwd.py_gen_triton_code_220059.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_220059.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_28664.py   | 140 +++++++
 ...orm_bwd.py_gen_triton_code_28664.py.stderr |   0
 ...orm_bwd.py_gen_triton_code_28664.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_338946.py  | 147 ++++++++
 ...rm_bwd.py_gen_triton_code_338946.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_338946.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_347725.py  | 146 ++++++++
 ...rm_bwd.py_gen_triton_code_347725.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_347725.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_387667.py  | 170 +++++++++
 ...rm_bwd.py_gen_triton_code_387667.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_387667.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_404776.py  | 134 +++++++
 ...rm_bwd.py_gen_triton_code_404776.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_404776.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_414029.py  | 132 +++++++
 ...rm_bwd.py_gen_triton_code_414029.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_414029.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_419949.py  | 132 +++++++
 ...rm_bwd.py_gen_triton_code_419949.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_419949.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_433589.py  | 128 +++++++
 ...rm_bwd.py_gen_triton_code_433589.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_433589.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_459560.py  | 149 ++++++++
 ...rm_bwd.py_gen_triton_code_459560.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_459560.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_486455.py  | 147 ++++++++
 ...rm_bwd.py_gen_triton_code_486455.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_486455.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_493519.py  | 136 +++++++
 ...rm_bwd.py_gen_triton_code_493519.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_493519.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_570539.py  | 136 +++++++
 ...rm_bwd.py_gen_triton_code_570539.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_570539.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_597752.py  | 132 +++++++
 ...rm_bwd.py_gen_triton_code_597752.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_597752.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_637799.py  | 147 ++++++++
 ...rm_bwd.py_gen_triton_code_637799.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_637799.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_640557.py  | 130 +++++++
 ...rm_bwd.py_gen_triton_code_640557.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_640557.py.stdout |  15 +
 .../l2_norm_bwd.py_gen_triton_code_712104.py  | 132 +++++++
 ...rm_bwd.py_gen_triton_code_712104.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_712104.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_786715.py  | 132 +++++++
 ...rm_bwd.py_gen_triton_code_786715.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_786715.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_827439.py  | 134 +++++++
 ...rm_bwd.py_gen_triton_code_827439.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_827439.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_843690.py  | 136 +++++++
 ...rm_bwd.py_gen_triton_code_843690.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_843690.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_864396.py  | 147 ++++++++
 ...rm_bwd.py_gen_triton_code_864396.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_864396.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_885795.py  | 135 +++++++
 ...rm_bwd.py_gen_triton_code_885795.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_885795.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_960121.py  | 130 +++++++
 ...rm_bwd.py_gen_triton_code_960121.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_960121.py.stdout |   1 +
 .../l2_norm_bwd.py_gen_triton_code_972847.py  | 139 +++++++
 ...rm_bwd.py_gen_triton_code_972847.py.stderr |   0
 ...rm_bwd.py_gen_triton_code_972847.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_212491.py | 104 ++++++
 ...riton1.py_gen_triton_code_212491.py.stderr |   0
 ...riton1.py_gen_triton_code_212491.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_254823.py | 116 ++++++
 ...riton1.py_gen_triton_code_254823.py.stderr |   0
 ...riton1.py_gen_triton_code_254823.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_318959.py | 114 ++++++
 ...riton1.py_gen_triton_code_318959.py.stderr |   0
 ...riton1.py_gen_triton_code_318959.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_336206.py | 112 ++++++
 ...riton1.py_gen_triton_code_336206.py.stderr |   0
 ...riton1.py_gen_triton_code_336206.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_357644.py | 114 ++++++
 ...riton1.py_gen_triton_code_357644.py.stderr |   0
 ...riton1.py_gen_triton_code_357644.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_392963.py | 117 ++++++
 ...riton1.py_gen_triton_code_392963.py.stderr |   0
 ...riton1.py_gen_triton_code_392963.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_403404.py | 124 +++++++
 ...riton1.py_gen_triton_code_403404.py.stderr |   0
 ...riton1.py_gen_triton_code_403404.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_466457.py | 117 ++++++
 ...riton1.py_gen_triton_code_466457.py.stderr |   0
 ...riton1.py_gen_triton_code_466457.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_598128.py | 111 ++++++
 ...riton1.py_gen_triton_code_598128.py.stderr |   0
 ...riton1.py_gen_triton_code_598128.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_599125.py | 112 ++++++
 ...riton1.py_gen_triton_code_599125.py.stderr |   0
 ...riton1.py_gen_triton_code_599125.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_637798.py | 104 ++++++
 ...riton1.py_gen_triton_code_637798.py.stderr |   0
 ...riton1.py_gen_triton_code_637798.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_650964.py | 113 ++++++
 ...riton1.py_gen_triton_code_650964.py.stderr |   0
 ...riton1.py_gen_triton_code_650964.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_674736.py | 108 ++++++
 ...riton1.py_gen_triton_code_674736.py.stderr |   0
 ...riton1.py_gen_triton_code_674736.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_786517.py | 117 ++++++
 ...riton1.py_gen_triton_code_786517.py.stderr |   0
 ...riton1.py_gen_triton_code_786517.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_800477.py | 117 ++++++
 ...riton1.py_gen_triton_code_800477.py.stderr |   0
 ...riton1.py_gen_triton_code_800477.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_839169.py | 132 +++++++
 ...riton1.py_gen_triton_code_839169.py.stderr |   0
 ...riton1.py_gen_triton_code_839169.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_846578.py | 109 ++++++
 ...riton1.py_gen_triton_code_846578.py.stderr |   0
 ...riton1.py_gen_triton_code_846578.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_964700.py | 117 ++++++
 ...riton1.py_gen_triton_code_964700.py.stderr |   0
 ...riton1.py_gen_triton_code_964700.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_965300.py | 113 ++++++
 ...riton1.py_gen_triton_code_965300.py.stderr |   0
 ...riton1.py_gen_triton_code_965300.py.stdout |   1 +
 ..._norm_triton1.py_gen_triton_code_973282.py | 132 +++++++
 ...riton1.py_gen_triton_code_973282.py.stderr |   0
 ...riton1.py_gen_triton_code_973282.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_114093.py | 124 +++++++
 ...nspose.py_gen_triton_code_114093.py.stderr |   0
 ...nspose.py_gen_triton_code_114093.py.stdout |  15 +
 ...trix_transpose.py_gen_triton_code_11496.py |  96 +++++
 ...anspose.py_gen_triton_code_11496.py.stderr |   0
 ...anspose.py_gen_triton_code_11496.py.stdout |   1 +
 ...trix_transpose.py_gen_triton_code_14792.py | 115 ++++++
 ...anspose.py_gen_triton_code_14792.py.stderr |   0
 ...anspose.py_gen_triton_code_14792.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_160821.py | 105 ++++++
 ...nspose.py_gen_triton_code_160821.py.stderr |   0
 ...nspose.py_gen_triton_code_160821.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_205496.py |  89 +++++
 ...nspose.py_gen_triton_code_205496.py.stderr |   0
 ...nspose.py_gen_triton_code_205496.py.stdout |   8 +
 ...rix_transpose.py_gen_triton_code_216901.py |  90 +++++
 ...nspose.py_gen_triton_code_216901.py.stderr |   0
 ...nspose.py_gen_triton_code_216901.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_274099.py | 102 +++++
 ...nspose.py_gen_triton_code_274099.py.stderr |   0
 ...nspose.py_gen_triton_code_274099.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_369711.py | 105 ++++++
 ...nspose.py_gen_triton_code_369711.py.stderr |   0
 ...nspose.py_gen_triton_code_369711.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_412290.py |  85 +++++
 ...nspose.py_gen_triton_code_412290.py.stderr |   0
 ...nspose.py_gen_triton_code_412290.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_429164.py | 100 +++++
 ...nspose.py_gen_triton_code_429164.py.stderr |   0
 ...nspose.py_gen_triton_code_429164.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_469771.py | 105 ++++++
 ...nspose.py_gen_triton_code_469771.py.stderr |   0
 ...nspose.py_gen_triton_code_469771.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_493615.py |  84 +++++
 ...nspose.py_gen_triton_code_493615.py.stderr |   0
 ...nspose.py_gen_triton_code_493615.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_529486.py |  87 +++++
 ...nspose.py_gen_triton_code_529486.py.stderr |   0
 ...nspose.py_gen_triton_code_529486.py.stdout |  14 +
 ...rix_transpose.py_gen_triton_code_571713.py |  97 +++++
 ...nspose.py_gen_triton_code_571713.py.stderr |   0
 ...nspose.py_gen_triton_code_571713.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_580037.py | 100 +++++
 ...nspose.py_gen_triton_code_580037.py.stderr |   0
 ...nspose.py_gen_triton_code_580037.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_608628.py |  89 +++++
 ...nspose.py_gen_triton_code_608628.py.stderr |   0
 ...nspose.py_gen_triton_code_608628.py.stdout |   8 +
 ...rix_transpose.py_gen_triton_code_619005.py | 100 +++++
 ...nspose.py_gen_triton_code_619005.py.stderr |   0
 ...nspose.py_gen_triton_code_619005.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_620806.py | 102 +++++
 ...nspose.py_gen_triton_code_620806.py.stderr |   0
 ...nspose.py_gen_triton_code_620806.py.stdout |  15 +
 ...rix_transpose.py_gen_triton_code_671609.py | 103 +++++
 ...nspose.py_gen_triton_code_671609.py.stderr |   0
 ...nspose.py_gen_triton_code_671609.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_724790.py | 100 +++++
 ...nspose.py_gen_triton_code_724790.py.stderr |   0
 ...nspose.py_gen_triton_code_724790.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_738982.py |  89 +++++
 ...nspose.py_gen_triton_code_738982.py.stderr |   0
 ...nspose.py_gen_triton_code_738982.py.stdout |   8 +
 ...trix_transpose.py_gen_triton_code_74175.py |  89 +++++
 ...anspose.py_gen_triton_code_74175.py.stderr |   0
 ...anspose.py_gen_triton_code_74175.py.stdout |   8 +
 ...rix_transpose.py_gen_triton_code_757083.py | 108 ++++++
 ...nspose.py_gen_triton_code_757083.py.stderr |   0
 ...nspose.py_gen_triton_code_757083.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_759138.py | 104 ++++++
 ...nspose.py_gen_triton_code_759138.py.stderr |   0
 ...nspose.py_gen_triton_code_759138.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_780911.py | 105 ++++++
 ...nspose.py_gen_triton_code_780911.py.stderr |   0
 ...nspose.py_gen_triton_code_780911.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_783719.py | 107 ++++++
 ...nspose.py_gen_triton_code_783719.py.stderr |   0
 ...nspose.py_gen_triton_code_783719.py.stdout |   1 +
 ...trix_transpose.py_gen_triton_code_81159.py | 111 ++++++
 ...anspose.py_gen_triton_code_81159.py.stderr |   0
 ...anspose.py_gen_triton_code_81159.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_853096.py |  89 +++++
 ...nspose.py_gen_triton_code_853096.py.stderr |   0
 ...nspose.py_gen_triton_code_853096.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_869907.py | 111 ++++++
 ...nspose.py_gen_triton_code_869907.py.stderr |   0
 ...nspose.py_gen_triton_code_869907.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_879575.py | 105 ++++++
 ...nspose.py_gen_triton_code_879575.py.stderr |   0
 ...nspose.py_gen_triton_code_879575.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_892743.py |  87 +++++
 ...nspose.py_gen_triton_code_892743.py.stderr |   0
 ...nspose.py_gen_triton_code_892743.py.stdout |  10 +
 ...rix_transpose.py_gen_triton_code_917011.py |  88 +++++
 ...nspose.py_gen_triton_code_917011.py.stderr |   0
 ...nspose.py_gen_triton_code_917011.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_930305.py | 107 ++++++
 ...nspose.py_gen_triton_code_930305.py.stderr |   0
 ...nspose.py_gen_triton_code_930305.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_953212.py |  87 +++++
 ...nspose.py_gen_triton_code_953212.py.stderr |   0
 ...nspose.py_gen_triton_code_953212.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_984648.py |  90 +++++
 ...nspose.py_gen_triton_code_984648.py.stderr |   0
 ...nspose.py_gen_triton_code_984648.py.stdout |   1 +
 ...rix_transpose.py_gen_triton_code_997014.py | 102 +++++
 ...nspose.py_gen_triton_code_997014.py.stderr |   0
 ...nspose.py_gen_triton_code_997014.py.stdout |  14 +
 ...vector_multip.py_gen_triton_code_164112.py |  87 +++++
 ...multip.py_gen_triton_code_164112.py.stderr |   2 +
 ...multip.py_gen_triton_code_164112.py.stdout |   1 +
 ...vector_multip.py_gen_triton_code_205689.py |  88 +++++
 ...multip.py_gen_triton_code_205689.py.stderr |   2 +
 ...multip.py_gen_triton_code_205689.py.stdout |   1 +
 ...vector_multip.py_gen_triton_code_334537.py |  88 +++++
 ...multip.py_gen_triton_code_334537.py.stderr |   2 +
 ...multip.py_gen_triton_code_334537.py.stdout |   1 +
 ...vector_multip.py_gen_triton_code_370413.py | 111 ++++++
 ...multip.py_gen_triton_code_370413.py.stderr |   2 +
 ...multip.py_gen_triton_code_370413.py.stdout |   1 +
 ...vector_multip.py_gen_triton_code_424820.py |  86 +++++
 ...multip.py_gen_triton_code_424820.py.stderr |   2 +
 ...multip.py_gen_triton_code_424820.py.stdout |   1 +
 ...vector_multip.py_gen_triton_code_554113.py |  88 +++++
 ...multip.py_gen_triton_code_554113.py.stderr |   2 +
 ...multip.py_gen_triton_code_554113.py.stdout |   1 +
 ...vector_multip.py_gen_triton_code_554981.py | 101 +++++
 ...multip.py_gen_triton_code_554981.py.stderr |   2 +
 ...multip.py_gen_triton_code_554981.py.stdout |   1 +
 ...vector_multip.py_gen_triton_code_561330.py |  98 +++++
 ...multip.py_gen_triton_code_561330.py.stderr |   2 +
 ...multip.py_gen_triton_code_561330.py.stdout |   1 +
 ...vector_multip.py_gen_triton_code_686366.py |  95 +++++
 ...multip.py_gen_triton_code_686366.py.stderr |   2 +
 ...multip.py_gen_triton_code_686366.py.stdout |   1 +
 ..._vector_multip.py_gen_triton_code_80693.py |  99 +++++
 ..._multip.py_gen_triton_code_80693.py.stderr |   2 +
 ..._multip.py_gen_triton_code_80693.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_105954.py | 312 ++++++++++++++++
 ...nsform.py_gen_triton_code_105954.py.stderr |   0
 ...nsform.py_gen_triton_code_105954.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_260701.py | 237 ++++++++++++
 ...nsform.py_gen_triton_code_260701.py.stderr |   0
 ...nsform.py_gen_triton_code_260701.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_329295.py | 287 ++++++++++++++
 ...nsform.py_gen_triton_code_329295.py.stderr |   0
 ...nsform.py_gen_triton_code_329295.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_338032.py | 321 ++++++++++++++++
 ...nsform.py_gen_triton_code_338032.py.stderr |   0
 ...nsform.py_gen_triton_code_338032.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_339628.py | 289 ++++++++++++++
 ...nsform.py_gen_triton_code_339628.py.stderr |   0
 ...nsform.py_gen_triton_code_339628.py.stdout |  15 +
 ...ary_transform.py_gen_triton_code_344391.py | 237 ++++++++++++
 ...nsform.py_gen_triton_code_344391.py.stderr |   0
 ...nsform.py_gen_triton_code_344391.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_373163.py | 343 +++++++++++++++++
 ...nsform.py_gen_triton_code_373163.py.stderr |   0
 ...nsform.py_gen_triton_code_373163.py.stdout |  14 +
 ...ary_transform.py_gen_triton_code_385268.py | 272 ++++++++++++++
 ...nsform.py_gen_triton_code_385268.py.stderr |   0
 ...nsform.py_gen_triton_code_385268.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_405620.py | 275 ++++++++++++++
 ...nsform.py_gen_triton_code_405620.py.stderr |   0
 ...nsform.py_gen_triton_code_405620.py.stdout |  15 +
 ...ary_transform.py_gen_triton_code_431864.py | 237 ++++++++++++
 ...nsform.py_gen_triton_code_431864.py.stderr |   0
 ...nsform.py_gen_triton_code_431864.py.stdout |   1 +
 ...tary_transform.py_gen_triton_code_44150.py | 265 +++++++++++++
 ...ansform.py_gen_triton_code_44150.py.stderr |   0
 ...ansform.py_gen_triton_code_44150.py.stdout |  15 +
 ...ary_transform.py_gen_triton_code_450091.py | 307 +++++++++++++++
 ...nsform.py_gen_triton_code_450091.py.stderr |   0
 ...nsform.py_gen_triton_code_450091.py.stdout |  14 +
 ...ary_transform.py_gen_triton_code_460195.py | 294 +++++++++++++++
 ...nsform.py_gen_triton_code_460195.py.stderr |   0
 ...nsform.py_gen_triton_code_460195.py.stdout |  14 +
 ...ary_transform.py_gen_triton_code_527413.py | 247 ++++++++++++
 ...nsform.py_gen_triton_code_527413.py.stderr |   0
 ...nsform.py_gen_triton_code_527413.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_540784.py | 284 ++++++++++++++
 ...nsform.py_gen_triton_code_540784.py.stderr |   0
 ...nsform.py_gen_triton_code_540784.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_549779.py | 317 ++++++++++++++++
 ...nsform.py_gen_triton_code_549779.py.stderr |   0
 ...nsform.py_gen_triton_code_549779.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_555768.py | 351 ++++++++++++++++++
 ...nsform.py_gen_triton_code_555768.py.stderr |   0
 ...nsform.py_gen_triton_code_555768.py.stdout |  15 +
 ...ary_transform.py_gen_triton_code_634902.py | 256 +++++++++++++
 ...nsform.py_gen_triton_code_634902.py.stderr |   2 +
 ...nsform.py_gen_triton_code_634902.py.stdout |   0
 ...ary_transform.py_gen_triton_code_669031.py | 265 +++++++++++++
 ...nsform.py_gen_triton_code_669031.py.stderr |   0
 ...nsform.py_gen_triton_code_669031.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_711258.py | 252 +++++++++++++
 ...nsform.py_gen_triton_code_711258.py.stderr |   0
 ...nsform.py_gen_triton_code_711258.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_816058.py | 289 ++++++++++++++
 ...nsform.py_gen_triton_code_816058.py.stderr |   0
 ...nsform.py_gen_triton_code_816058.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_824557.py | 268 +++++++++++++
 ...nsform.py_gen_triton_code_824557.py.stderr |   0
 ...nsform.py_gen_triton_code_824557.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_840463.py | 228 ++++++++++++
 ...nsform.py_gen_triton_code_840463.py.stderr |   0
 ...nsform.py_gen_triton_code_840463.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_843724.py | 237 ++++++++++++
 ...nsform.py_gen_triton_code_843724.py.stderr |   0
 ...nsform.py_gen_triton_code_843724.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_893238.py | 295 +++++++++++++++
 ...nsform.py_gen_triton_code_893238.py.stderr |   0
 ...nsform.py_gen_triton_code_893238.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_915460.py | 292 +++++++++++++++
 ...nsform.py_gen_triton_code_915460.py.stderr |   0
 ...nsform.py_gen_triton_code_915460.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_925133.py | 303 +++++++++++++++
 ...nsform.py_gen_triton_code_925133.py.stderr |   0
 ...nsform.py_gen_triton_code_925133.py.stdout |  15 +
 ...ary_transform.py_gen_triton_code_939610.py | 279 ++++++++++++++
 ...nsform.py_gen_triton_code_939610.py.stderr |   0
 ...nsform.py_gen_triton_code_939610.py.stdout |   1 +
 ...ary_transform.py_gen_triton_code_946209.py | 284 ++++++++++++++
 ...nsform.py_gen_triton_code_946209.py.stderr |   0
 ...nsform.py_gen_triton_code_946209.py.stdout |   1 +
 ...tary_transform.py_gen_triton_code_99563.py | 279 ++++++++++++++
 ...ansform.py_gen_triton_code_99563.py.stderr |   0
 ...ansform.py_gen_triton_code_99563.py.stdout |  14 +
 .../sin_kernel.py_gen_triton_code_123151.py   | 100 +++++
 ...kernel.py_gen_triton_code_123151.py.stderr |   0
 ...kernel.py_gen_triton_code_123151.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_179581.py   | 100 +++++
 ...kernel.py_gen_triton_code_179581.py.stderr |   0
 ...kernel.py_gen_triton_code_179581.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_370053.py   | 101 +++++
 ...kernel.py_gen_triton_code_370053.py.stderr |   0
 ...kernel.py_gen_triton_code_370053.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_473025.py   |  92 +++++
 ...kernel.py_gen_triton_code_473025.py.stderr |   0
 ...kernel.py_gen_triton_code_473025.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_502063.py   | 100 +++++
 ...kernel.py_gen_triton_code_502063.py.stderr |   0
 ...kernel.py_gen_triton_code_502063.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_50482.py    | 102 +++++
 ..._kernel.py_gen_triton_code_50482.py.stderr |   0
 ..._kernel.py_gen_triton_code_50482.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_557502.py   | 100 +++++
 ...kernel.py_gen_triton_code_557502.py.stderr |   0
 ...kernel.py_gen_triton_code_557502.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_560359.py   | 100 +++++
 ...kernel.py_gen_triton_code_560359.py.stderr |   0
 ...kernel.py_gen_triton_code_560359.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_794865.py   |  95 +++++
 ...kernel.py_gen_triton_code_794865.py.stderr |   0
 ...kernel.py_gen_triton_code_794865.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_834634.py   | 100 +++++
 ...kernel.py_gen_triton_code_834634.py.stderr |   0
 ...kernel.py_gen_triton_code_834634.py.stdout |   1 +
 .../sin_kernel.py_gen_triton_code_931009.py   | 100 +++++
 ...kernel.py_gen_triton_code_931009.py.stderr |   0
 ...kernel.py_gen_triton_code_931009.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_108037.py | 129 +++++++
 ...matmul.py_gen_triton_code_108037.py.stderr |   0
 ...matmul.py_gen_triton_code_108037.py.stdout |   1 +
 .../triton_matmul.py_gen_triton_code_12912.py | 120 ++++++
 ..._matmul.py_gen_triton_code_12912.py.stderr |   0
 ..._matmul.py_gen_triton_code_12912.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_186313.py | 125 +++++++
 ...matmul.py_gen_triton_code_186313.py.stderr |   0
 ...matmul.py_gen_triton_code_186313.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_284744.py | 124 +++++++
 ...matmul.py_gen_triton_code_284744.py.stderr |   0
 ...matmul.py_gen_triton_code_284744.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_366643.py | 127 +++++++
 ...matmul.py_gen_triton_code_366643.py.stderr |   0
 ...matmul.py_gen_triton_code_366643.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_391924.py | 151 ++++++++
 ...matmul.py_gen_triton_code_391924.py.stderr |   0
 ...matmul.py_gen_triton_code_391924.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_395140.py | 120 ++++++
 ...matmul.py_gen_triton_code_395140.py.stderr |   0
 ...matmul.py_gen_triton_code_395140.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_417385.py | 124 +++++++
 ...matmul.py_gen_triton_code_417385.py.stderr |   0
 ...matmul.py_gen_triton_code_417385.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_654780.py | 122 ++++++
 ...matmul.py_gen_triton_code_654780.py.stderr |   0
 ...matmul.py_gen_triton_code_654780.py.stdout |   1 +
 ...triton_matmul.py_gen_triton_code_769893.py | 121 ++++++
 ...matmul.py_gen_triton_code_769893.py.stderr |   0
 ...matmul.py_gen_triton_code_769893.py.stdout |  14 +
 ...triton_matmul.py_gen_triton_code_993568.py | 133 +++++++
 ...matmul.py_gen_triton_code_993568.py.stderr |   0
 ...matmul.py_gen_triton_code_993568.py.stdout |   1 +
 src/temp/int4_matmul.py                       | 286 ++++++++++++++
 src/temp/l2_norm_bwd.py                       | 117 ++++++
 src/temp/l2_norm_triton1.py                   |  97 +++++
 src/temp/matrix_transpose.py                  |  76 ++++
 src/temp/matrix_vector_multip.py              |  86 +++++
 src/temp/rotary_transform.py                  | 254 +++++++++++++
 src/temp/sin_kernel.py                        |  58 +++
 src/temp/triton_matmul.py                     | 130 +++++++
 src/utils/__pycache__/utils.cpython-312.pyc   | Bin 2442 -> 2442 bytes
 1100 files changed, 51644 insertions(+), 77 deletions(-)
 create mode 100644 src/good/flash_decode2_phi.py
 create mode 100644 src/good/l2_norm_bwd.py
 create mode 100644 src/good/l2_norm_triton1.py
 create mode 100644 src/good/matrix_transpose.py
 create mode 100644 src/good/matrix_vector_multip.py
 create mode 100644 src/good/rotary_transform.py
 create mode 100644 src/good/sin_kernel.py
 create mode 100644 src/good/triton_matmul.py
 create mode 100644 src/pass_exe/embedding_triton_kernel.py
 create mode 100644 src/pass_exe/flash_decode2_phi.py
 create mode 100644 src/pass_exe/l2_norm_bwd.py
 create mode 100644 src/pass_exe/l2_norm_triton1.py
 create mode 100644 src/pass_exe/matrix_transpose.py
 create mode 100644 src/pass_exe/matrix_vector_multip.py
 create mode 100644 src/pass_exe/rotary_transform.py
 create mode 100644 src/pass_exe/sin_kernel.py
 create mode 100644 src/pass_exe/triton_matmul.py
 create mode 100644 src/soso/flash_decode2_phi.py
 create mode 100644 src/soso/l2_norm_bwd.py
 create mode 100644 src/soso/l2_norm_triton1.py
 create mode 100644 src/soso/matrix_transpose.py
 create mode 100644 src/soso/matrix_vector_multip.py
 create mode 100644 src/soso/rotary_transform.py
 create mode 100644 src/soso/sin_kernel.py
 create mode 100644 src/soso/triton_matmul.py
 create mode 100644 src/temp/embedding_triton_kernel.py
 create mode 100644 src/temp/flash_decode2_phi.py
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_155036.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_176773.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_180807.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_18528.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_200147.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_211539.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_322972.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_347928.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_355413.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_429595.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_43398.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_459432.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_474863.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_477598.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_480728.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_490985.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_507685.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_524778.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_533885.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_552958.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_574109.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_58716.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_600998.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_605163.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_620455.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_635331.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_64602.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_68534.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_713720.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_721645.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_759146.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_764635.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_76684.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_804525.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_823958.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_830218.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_837397.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_92676.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_940390.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_965031.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_984659.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_992208.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_126106.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_14965.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_198114.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_23614.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_269764.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_335674.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_349606.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_369704.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_38100.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_405645.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_42419.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_450387.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_506478.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_543766.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_560861.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_576804.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_653084.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_661704.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_684759.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_690508.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_720655.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_721584.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_735113.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_739112.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_754689.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_802348.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_812012.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_83138.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_870175.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_882682.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_900175.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_925215.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_959027.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_124574.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_178552.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_216434.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_219875.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_243114.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_291697.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_298484.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_308542.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_312025.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_357204.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_365790.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_41463.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_430740.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_434177.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_461728.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_48845.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_490790.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_511041.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_512013.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_52090.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_530716.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_635842.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_718301.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_731602.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_76683.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_769812.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_790411.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_811684.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_815235.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_816192.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_838410.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_886215.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_891149.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_912380.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_925632.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_927195.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_93329.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_942564.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_977481.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_991002.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_995030.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_143388.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_167554.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_215639.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_220059.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_28664.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_338946.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_347725.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_387667.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_404776.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_414029.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_419949.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_433589.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_459560.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_486455.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_493519.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_570539.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_597752.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_637799.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_640557.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_712104.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_786715.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_827439.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_843690.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_864396.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_885795.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_960121.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_972847.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_212491.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_254823.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_318959.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_336206.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_357644.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_392963.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_403404.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_466457.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_598128.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_599125.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_637798.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_650964.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_674736.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_786517.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_800477.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_839169.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_846578.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_964700.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_965300.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_973282.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_114093.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_11496.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_14792.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_160821.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_205496.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_216901.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_274099.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_369711.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_412290.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_429164.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_469771.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_493615.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_529486.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_571713.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_580037.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_608628.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_619005.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_620806.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_671609.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_724790.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_738982.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_74175.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_757083.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_759138.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_780911.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_783719.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_81159.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_853096.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_869907.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_879575.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_892743.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_917011.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_930305.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_953212.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_984648.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_997014.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_164112.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_205689.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_334537.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_370413.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_424820.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_554113.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_554981.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_561330.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_686366.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_80693.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_105954.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_260701.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_329295.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_338032.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_339628.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_344391.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_373163.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_385268.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_405620.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_431864.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_44150.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_450091.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_460195.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_527413.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_540784.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_555768.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_634902.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_669031.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_711258.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_816058.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_824557.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_840463.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_843724.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_893238.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_915460.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_925133.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_939610.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_946209.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_99563.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_123151.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_179581.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_370053.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_473025.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_502063.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_50482.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_557502.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_560359.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_794865.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_834634.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_931009.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_108037.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_12912.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_186313.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_284744.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_366643.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_391924.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_395140.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_417385.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_654780.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_769893.cpython-312.pyc
 create mode 100644 src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_993568.cpython-312.pyc
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py.stdout
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py.stderr
 create mode 100644 src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py.stdout
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py.stderr
 create mode 100644 src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_124574.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_124574.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_124574.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_178552.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_178552.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_178552.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_216434.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_216434.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_216434.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_219875.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_219875.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_219875.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_243114.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_243114.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_243114.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_291697.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_291697.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_291697.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_298484.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_298484.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_298484.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_308542.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_308542.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_308542.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_312025.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_312025.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_312025.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_357204.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_357204.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_357204.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_365790.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_365790.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_365790.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_41463.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_41463.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_41463.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_430740.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_430740.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_430740.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_434177.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_434177.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_434177.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_461728.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_461728.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_461728.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_48845.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_48845.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_48845.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_490790.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_490790.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_490790.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_511041.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_511041.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_511041.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_512013.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_512013.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_512013.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_52090.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_52090.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_52090.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_530716.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_530716.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_530716.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_635842.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_635842.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_635842.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_718301.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_718301.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_718301.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_731602.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_731602.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_731602.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_732866.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_76683.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_76683.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_76683.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_769812.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_769812.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_769812.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_790411.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_790411.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_790411.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_811684.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_811684.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_811684.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_815235.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_815235.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_815235.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_816192.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_816192.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_816192.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_838410.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_838410.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_838410.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_865534.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_886215.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_886215.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_886215.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_891149.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_891149.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_891149.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_912380.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_912380.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_912380.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_925632.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_925632.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_925632.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_927195.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_927195.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_927195.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_93329.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_93329.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_93329.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_942564.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_942564.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_942564.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_977481.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_977481.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_977481.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_991002.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_991002.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_991002.py.stdout
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_995030.py
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_995030.py.stderr
 create mode 100644 src/temp/gen/int4_matmul.py_gen_triton_code_995030.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py.stdout
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py.stderr
 create mode 100644 src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py.stdout
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py.stderr
 create mode 100644 src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py.stdout
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py.stderr
 create mode 100644 src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py.stdout
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py.stderr
 create mode 100644 src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_105954.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_105954.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_105954.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_260701.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_260701.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_260701.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_329295.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_329295.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_329295.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_338032.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_338032.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_338032.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_339628.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_339628.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_339628.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_344391.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_344391.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_344391.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_373163.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_373163.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_373163.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_385268.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_385268.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_385268.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_405620.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_405620.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_405620.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_431864.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_431864.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_431864.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_44150.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_44150.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_44150.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_450091.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_450091.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_450091.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_460195.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_460195.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_460195.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_527413.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_527413.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_527413.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_540784.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_540784.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_540784.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_549779.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_549779.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_549779.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_555768.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_555768.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_555768.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_634902.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_634902.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_634902.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_669031.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_669031.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_669031.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_711258.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_711258.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_711258.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_816058.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_816058.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_816058.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_824557.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_824557.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_824557.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_840463.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_840463.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_840463.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_843724.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_843724.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_843724.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_893238.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_893238.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_893238.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_915460.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_915460.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_915460.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_925133.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_925133.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_925133.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_939610.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_939610.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_939610.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_946209.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_946209.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_946209.py.stdout
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_99563.py
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_99563.py.stderr
 create mode 100644 src/temp/gen/rotary_transform.py_gen_triton_code_99563.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_123151.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_123151.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_123151.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_179581.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_179581.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_179581.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_370053.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_370053.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_370053.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_473025.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_473025.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_473025.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_502063.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_502063.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_502063.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_50482.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_50482.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_50482.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_557502.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_557502.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_557502.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_560359.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_560359.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_560359.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_794865.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_794865.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_794865.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_834634.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_834634.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_834634.py.stdout
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_931009.py
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_931009.py.stderr
 create mode 100644 src/temp/gen/sin_kernel.py_gen_triton_code_931009.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_108037.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_108037.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_108037.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_12912.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_12912.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_12912.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_186313.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_186313.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_186313.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_284744.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_284744.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_284744.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_366643.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_366643.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_366643.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_391924.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_391924.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_391924.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_395140.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_395140.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_395140.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_417385.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_417385.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_417385.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_654780.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_654780.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_654780.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_769893.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_769893.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_769893.py.stdout
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_993568.py
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_993568.py.stderr
 create mode 100644 src/temp/gen/triton_matmul.py_gen_triton_code_993568.py.stdout
 create mode 100644 src/temp/int4_matmul.py
 create mode 100644 src/temp/l2_norm_bwd.py
 create mode 100644 src/temp/l2_norm_triton1.py
 create mode 100644 src/temp/matrix_transpose.py
 create mode 100644 src/temp/matrix_vector_multip.py
 create mode 100644 src/temp/rotary_transform.py
 create mode 100644 src/temp/sin_kernel.py
 create mode 100644 src/temp/triton_matmul.py

diff --git a/src/__pycache__/args_config.cpython-312.pyc b/src/__pycache__/args_config.cpython-312.pyc
index ed62ea94b9178a5147963fc8bfe6e3c473ed5043..4168ffc6fe2f2436464f758d8f9bd317cf7de9a3 100644
GIT binary patch
delta 20
acmZ3(vWA8GG%qg~0}w2WU$v22kqH1b*97SR

delta 20
acmZ3(vWA8GG%qg~0}vF%&DqGU$OHg15d@?F

diff --git a/src/agents/__pycache__/Base.cpython-312.pyc b/src/agents/__pycache__/Base.cpython-312.pyc
index f0a272db34755c9ad5ac90fc0aa6f7c474ac611d..4212f025bc4b02b3b97c7b383a1b71a7e86edbbe 100644
GIT binary patch
delta 20
acmeyR_DhZXG%qg~0}w2WU$v1tUl;&J;07oF

delta 20
acmeyR_DhZXG%qg~0}vF%&DqGEFAM-h8U^D3

diff --git a/src/agents/__pycache__/Reflexion.cpython-312.pyc b/src/agents/__pycache__/Reflexion.cpython-312.pyc
index 54cab4bd97f26a4a5622127942cb5f6a38e1bf70..665562496c745c66b8b24028a9d2c7b2752984e0 100644
GIT binary patch
delta 20
acmX>sc36!2G%qg~0}w2WU$v3jf*Sxl00mnB

delta 20
acmX>sc36!2G%qg~0}vF%&DqFp!3_X9It3O0

diff --git a/src/agents/__pycache__/reflexion_oneshot.cpython-312.pyc b/src/agents/__pycache__/reflexion_oneshot.cpython-312.pyc
index db3379e04a5f6150b194bba0a6cbd55a6310e256..ba6c9882db0ddcf2cef5f1e5623abe9946c84655 100644
GIT binary patch
delta 3707
zcmb_fYfK#16}~gGv+pN6yX=F<usmY0fndN7T;ik<Vh6LhA+dwAbVHZ{gISi&4zj(P
z^*U02#4VC>ZmN*lR-CG8a7|;ZsEU;z6_H|<*fkjfuJMYtY1BVe{}4NE6sM|s?k)?M
zI#Q!{q&<7@x#xc8%y-V-d-k1{h5gnW7K;(V^Na8=55HP=#rk6lE$Q%COPh)5vLlqx
zD`-HAFWY?f(}o_p5B1Pp4p18u1AfuVxg~1Ut{BeHqfQM<7(s1}`DGL4eR<eo<+Kz!
zjxtlXz$p5&NTAO%mnh;8A!=o*LD0x6Dufhcb{ULWMF&!Qp3Ukgq);z!maQ28gm8_X
z!~gQSai`T%XiAtB6WHsBBgK3co!2BR3N6usK4Hy7F(4S$pk!AT=3(w9R|Ba>2^+xl
z$hlejq;=Ai#er43Vr)i)o_<0PpQgu-=WH$t;W<6GPcbOkOH5`n@J5dYfGkJCAm?WR
z6-O4X8Fe`UAV;wc6lPb~z6CQrWh=66CJwvG(vHx8AOAq_d<1+<S}xHUTj1%N_FL=)
zbcT!y!J737saPdrEd$^qMtm3${van8|HjTShJgUC(Kx9R;xju-LL?g>!6w)z9hWp2
zeMk#9&IFfmCESVJghz44^om<Cgjc<eh7=BTo(FWj0tfRI41@&q!0Lzw8K8uq3IaYK
zFSyoTCYz6q<vR30x%wajtNz!OfG-R5txCZ6@DgCqz!t()>;Jz7z~gESRDRnU&@0qQ
zdW;_Z2T5&v^~Urel(b}NpwJjYe&5HTx+(Z13`f_Eict-UQAc5=6MoTPOO5^-=R3Xr
z_m451=qOc;<V{)h5+qe7yqW4t3OR}wexvl78^M{;tj}^MWIf?M;RV>)%;+d}6lI|Q
zn{Y<YX2W<e%+chVnT2w9FkWqJY;5G87#!q}h|-Wa7~_Y#V=+<K!pG$3@NoZ7AKxwW
z{jw-^%l*+IKCa<mL)@0$ws%c!+Al?W#8`}Mi0AUX-Ti~2u!<QSk@;vZAJ_77RPKIs
zFhzy`N=}7%sj*KSBG@7yiw=&YUGzq!4g2x0oR!IZqck$a_e3R0?2(7S6)%f1ImSa!
zeZwOujVwlnQ+g78SUe_{Qz;#Mg@t}8UbGU898GWG<-;Q22qG_xh!7Cpz{j%=zrmz|
zf0mAK!plzAqx^q{SMHH^!ple=5Ghvb9_kY%FHzKhz#gs~w{V;4Qyhsm937U!>s~_I
zLN@8MFE2etriLev^@ziS419_!qx^V^JLqB}VkBkDyh<3xQK?^yVXbRtQr9~ok4R!H
zrOgb|ex-JTWa{Z291O=~0Wz>Q5hW>QB<!p#WXD8Li78i1?uT6)T*dqV$Uo%4va2%r
zLrCXIbf=*7%=XFJ3Hh>eQJLTTomccroOitPHn-`O=1;4(UXEOhT-|&1`MIi=`GOG0
z3$dA=k0UoCKaHtXEw8kz1))DX150-I>!vd%wIDbn&-AL#KCk9=F4zy<vAh0a&N<zB
zs#Wz>Ow>)3O=(n5{epSh5@-XU9^d@)o{8%DvIezum%8g2wc`c#nUETKN%izBn1xSq
z%GJF8@dfjDmmIEhO&4tQd5_+5)J#2l$62`K-F($}%iA=4>`p|P4<zOyirU+MVaMCM
z-`YJ@ce{4)T<zYOT6O;m^Ti?c``vTJ-D*S`*QtR7e$`#f-ZLV;8eemlB&)x)p`5K>
zxRJ$~33SJTxnU{SKi>ZP+%03wGOcsuFNR*c9XdQ0I($2nm<uHqJ^nYfZ)o4Ny<wYh
zUUpw}UoN~@c(rV%Vwpi*)CuYyqPr;f9M?Ivcl_9df9l9|!%X~hJMt7Q1}evze$sl!
z3!^P$w4BtU((<vU*V+~XWobn*@>DLDa2ER)RjVO2EtsFYQ`a<K(s`wQqGP7^<Hj3}
zKkJxkSItFgNoSfIm9L-A+jh&b{c7C<?0in6DAi2gL#X&k`g4??sC@&gMB%AikD-|!
z*DVtZe8ydp=B6IAo)T?6;bsS}_V|-g8oA29`m7-I)!hnIe1iItLB3{c&f9eVOBVQ>
zbJTqOMF8ILE@B+{OPufZ)-$bYplSMv=~|V4YJuCcSkgTGz3C=3um|3@^$%R$*ULIE
z{pa1MDO7rh`s%KpM3{k9S73Ljj_vnj=b(s_?>qK2Xg@G(Kz^vVwK>=ibJ;eH?!&y&
zeY=g<sA3pjE3E_lZ`miTZ3UW-9FAbF_M>7Ak&oGemF#s38!XaY&nXS&8Lw|IhVc!5
z9q50zn*iO^ux(b;O@kgFZaUaDzu{(qA;{@&J`xDpbhC9f7ACWK1Y)*`4OW<D%XF}L
zwvr8QGxV&qOAshREPTlP-e=h2&10%$23L9Wv;w72(3?U#g6~_L9CUsUG?&nM8q<wv
zlhsYH*lpE2a|C8mlkJldOcsL5!S8r;Sr+CTKH<yL4s}B3>rSJ8V&j+<PheKz^OtJL
z$tLKCOlTAa8dVLs%HkH7GcbqSHRBQNPxuP)CweEI^0ACTp-4xF$9xtXFl2N_&=nbo
z&g5kTQwBpY1B&Gw-A5%@h@&7K2Q*;4tU^y(SHsuJ#SlXJffjS6i6*|Y+O_YnAv->f
z%5A~8q2ow@=4!j|;4As=K}qZuj;~yN@1FI$s9iakGnDjSDOM0)8tF?P)am0{B0YFY
zJ1j*b!!n$?Q7O_bOO2qE4uQab%B!bD?8@Is9mMVVn`$nBGWHxqcoHp|tfw1))JRUO
zeW&(~@4V3Q_JOw!yd8cktd`WP^)0IRsRi?%cTeT-q3B@>TfP4OG3A<d*>DuPsyT>d
z!!yZb8}tMtq%)f4UbDUiuv(}|YO~xcR2Z_Id4N$}Fz#7pR1$j!;eIBq0=X!qqhMCf
zq;$a6OM_x0%}~mez6s&R8X1(O<6t4hiP%SMt!vCn38EzzB;kEKlE~jR=>!o;B33Dv
zD#;Z7JRs>L5mg|{S*d`GMI7R{QXzbrFW;(yBKA6njhRsWwNp*+wOna=ul-89THCBP
zKc{*RESL}C>->AB5rT7&h!7qvdc3fcVr%ck=_1y4?`g`$c2E*2MJWeFxliiAe=E96
Xy@vl7Xmkb{s)HIg{2iqSX|sO=LLI6Z

delta 2339
zcmb_eTWl0n7(Qn%JA0qK&0gE>Zns-l?nPRPupptdg%yNAQb@qHbeGaiyDc-@0A<F)
ziy}6m@q}0`hWKOy4G~DhC&R@Ar4P2DNZp``i7)z~1tg8c2miC%ZNUVen9cs@{Fn3n
z=lf^oKQp=Ga-((3Vlg7Pdfq;N=xO+h^+OAj=gF{To51XUA0bUoOhS;fSzVlpPc9~{
z<*UeY(Nb>EjH+Q6rC3!zj8x+=`jpd5DkC!~PBRyle6KUE!zgE`;Pg_3QQak6oYx}F
z0>M2wXHiF}-#jWj=e4Sc?5uKmQ?SgB8qgWBjp;yb%>EE;NmQ+*TQ9LF<0Xgn&efu-
zyTlfORFN<Pl^oJ+nwSfez*Sobx&iHnl$u?&WXj1-s}t)<i!IF77t`5F>GoF_(jfAS
zC^-Rs)NqL@f?@RB(wnv*V?dOxH)SlPc!6_)g}(?}3V=OqEWnGIAhGM6<Q)e`u397#
zw@a*;sU*puzj7bs(;S*pb;x*Nt?E?8q@zS<U=xRmX&Y0f66y<SUv;U;pk1n0Us;_U
z|E+Uo0lks`UunIHPcVbbKo_}UaW`gSrE1KN{m&Hx0#9@37(6l<{+f6MMNkb=@Db4W
zA`HJlJaCdca=EKv^4?K)FFJx>9z3uILOt<)#kiPxd!J~G$K#<bxwPDx>*&sg`nV7n
z@;Lb$eH8l~#`biU`qCk#yR(;ukn7UY^-iPQn++*#az{^23BkJdp58ubK3Gm4>`b@O
za3v<mYXD02g2?l7YqmX2F1llk>?7mu#R0j7+C_j%DjnJO&UCV^wX;)R0#>rZQ;l7u
z#nVE*@zgJ5yV6~G;b3pBS57N=U2&2ZI+SEjtD?wDVTIzN%d+0rnV%VQ(HrtSG&{~D
zK1huF7mchMss4f+_ts9D>!!#SUqj>4N%QiDc4?^jzCAkP`q5eOt8ejF#{0faH;ztq
z9e&W&H__EM4KF<2%)p?*@CczSZe*Sy6lp3c<V#<L2!84q5?}%@@{=!On>M0Q)dlUG
zHnMl*(7lS)g!fnV*U#9Iqk7uQT5Nymk;Pfu+_FjYiie)SP{W07=eCW+M(W4QR{h|q
z9b~7R?vLXi#iv|lQ;`LqulsD>gUE)7$c7v29o<dcy-3r9Ei@<$dGem%RAp>%)7iwd
z33=<L%`SjnHV40A(!8=rbnPtDhx1Ic@`LR0iR|$L#YW2XU0?!CyKz&2Y4fZ?{DG*k
zX_jO2OE?}5RO#wxMBqq<1A+c+43c7hKMvBO%&^GcfG2#Lp3Mm0pRh;&d7Q#1(md-K
zryd?W<M!w?B?~w5mP<^q{H=&%Yn^bbHoCROc-tR=`R(-^F*xo7#6+0Cv&fN<ggfh^
z37hfTa0KSx@!$^gcWd~~5PY|ePaxCXwR%`F#_|b^Va&!u)R@F4f~GOQ0HI@HKC#Hq
zHrsq5GeR8vss7{?Lv}_2JU)hU4C#)PF&TlJESJa%&V`N8dtKI1rqoq6R>fpFCz0Q6
zPQBt(SvXfPc_g?<yu!$3_d<KF(YuIGbeE!*l=@zZ^Fg*0Po>5cR&sC}F?|-$S<rR!
z(12zlJE|m|>;Q*A-l}p_6N@u$+K3I*3T+0oKZE5yHf1P+q>NxUooCvy#;f$uso|VB
z03FNKq%x!CITE^DIc%bE!HG0`)B&8nWSt+Ay3+g@idnW_`=dg_tSHxzvarudUtu{8
zBCnt89qYrj_#nxJ*Wlgca(JQR6L2eakmCfJGFi{WPsgtbmCYEt$&N_b%Zff*ep+Rw
zSYQ7rE*+g3n__?`Tj0sfRb1-lfFxHUsp4eebAfIjw$5*lv3a3K?mp0&?vfR{XHzb%
z<dV>7dOLG+7g%KaNXl=5h?xpaOQs0&VJc)Q=J*x>3jIi?9|m%c3d=H(F<uT*<sdl_
zU5Q)B*=Wr1H5im5Am&OyrlZ$Q85*~niWYLU`i+Wa%)j<z4-?|WC(YQ(@4|9~I_YT|
d^UFJkeZgaVif{|#&f^T;g@+7JQDIUD`xm4zCn5j<

diff --git a/src/agents/reflexion_oneshot.py b/src/agents/reflexion_oneshot.py
index d10a345..c0eacfd 100644
--- a/src/agents/reflexion_oneshot.py
+++ b/src/agents/reflexion_oneshot.py
@@ -78,7 +78,16 @@ class Memory(metaclass=MemoryClassMeta, field_names=["ps",
     def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None, iteration_num=0, temperature=0):
         data_len = datalen if datalen else len(self.dataset)
         for iter in range(iteration_num):
+            # Filter only failed kernels for this iteration (correctness check)
+            failed_memories = [mem for mem in self.memories[:data_len] if not mem.pass_call]
+            
+            if not failed_memories:
+                logger.info(f"\n=== All kernels passed, stopping at iteration {iter} ===")
+                break
+                
             logger.info(f"\n=== Iteration {iter} ===")
+            logger.info(f"Processing {len(failed_memories)} failed kernels out of {data_len} total")
+            
             if output_path is not None:
                 root, extension = os.path.splitext(output_path)
                 iter_path = f"{root}_{iter}{extension}"
@@ -86,50 +95,38 @@ def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None,
             if multi_thread:
                 thread_num = 3
             
-            # generate solution
-            logger.info(f"\ngenerate solution")
-            with tqdm(total=data_len) as pbar:
+            # generate solution for failed kernels only
+            logger.info(f"\ngenerate solution for failed kernels")
+            with tqdm(total=len(failed_memories)) as pbar:
                 if multi_thread:
-                    
                     with ThreadPoolExecutor(max_workers=thread_num) as executor:
-                        futures = {executor.submit(self.generate_solution, mem, temperature): mem for mem in self.memories[:data_len]}
+                        futures = {executor.submit(self.generate_solution, mem, temperature): mem for mem in failed_memories}
                         for future in as_completed(futures):
                             pbar.update(1)
                 else:
-                    for mem in self.memories[:data_len]:
+                    for mem in failed_memories:
                         self.generate_solution(mem, temperature=temperature)
                         pbar.update(1)
             
-            """
-            Run the scripts to verify whether the generated kernels can execute without errors.
-            To check for correctness against expected outputs, use the test_opt_correctness method from TritonBench:
-
-            if self.config.agent.output_path is not None:
-                    root, extension = os.path.splitext(self.config.agent.output_path)
-                    tmp_dir = f"{root}_tmp_{n}"
-                    exe_dir = f"{root}_pass_exe_{n}"
-                    perf_result_dir = f"{root}_perf_results_{n}"
-                    perf_log_dir = f"{root}_perf_logs_{n}"
-
-                else:
-                    tmp_dir = f"tmp_{n}"
-                    exe_dir = f"pass_exe_{n}"
-                    perf_result_dir = f"perf_results_{n}"
-                    perf_log_dir = f"perf_logs_{n}"
-
-                for fn, mems in tqdm(current_memories.items()):
-                    mem = mems[n]
-                    try:
-                        pass_call, pass_exe, call_stdout, call_stderr, exe_stdout, exe_stderr = self.dataset.test_opt_correctness(mem.code, mem.ps.filename, tmp_dir, exe_dir=exe_dir)
-            
-            """
-            logger.info(f"\nrun scripts on gpu")
-            for mem in tqdm(self.memories[:data_len]):
-                if mem.pass_call:
+            logger.info(f"\nrun correctness tests on gpu")
+            for mem in tqdm(failed_memories):
+                try:
+                    pass_call, pass_exe, call_stdout, call_stderr, exe_stdout, exe_stderr = self.dataset.test_opt_correctness(
+                        mem.ps.solution, mem.ps.filename, "temp", exe_dir="pass_exe"
+                    )
+                except Exception as e:
+                    logger.info(f"failed to test the code due to : {e}")
+                    mem.err_msg = f"failed to test the code due to: {e}"
                     continue
-                is_pass, err_msg = self.dataset.run_single_call(mem.ps)
-                if not is_pass:
-                    mem.err_msg = err_msg
+                
+                if not pass_call:
+                    mem.err_msg = call_stderr
+                elif not pass_exe:
+                    mem.err_msg = exe_stderr
+                else:
+                    # Both call and execution passed - mark as successful
+                    mem.pass_call = True
+                    mem.err_msg = None  # Clear previous error
             """
             To measure kernel latency, follow these steps:
 
@@ -152,16 +149,17 @@ def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None,
 
             """
 
-            # generate reflections
-            logger.info(f"\ngenerate reflections")
-            with tqdm(total=data_len) as pbar:
+            # generate reflections for failed kernels only
+            logger.info(f"\ngenerate reflections for failed kernels")
+            still_failed_memories = [mem for mem in failed_memories if not mem.pass_call]
+            with tqdm(total=len(still_failed_memories)) as pbar:
                 if multi_thread:
                     with ThreadPoolExecutor(max_workers=thread_num) as executor:
-                        futures = {executor.submit(self.generate_reflexion, mem, temperature): mem for mem in self.memories[:data_len]}
+                        futures = {executor.submit(self.generate_reflexion, mem, temperature): mem for mem in still_failed_memories}
                         for future in as_completed(futures):
                             pbar.update(1)
                 else:
-                    for mem in self.memories[:data_len]:
+                    for mem in still_failed_memories:
                         self.generate_reflexion(mem, temperature=temperature)
                         pbar.update(1)
             
@@ -172,6 +170,7 @@ def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None,
     
     def generate_solution(self, mem, temperature=0):
         if mem.pass_call:
+            logger.debug(f"Skipping {mem.ps.filename} - already passed")
             return
         
         # tab = "\n"
@@ -208,6 +207,7 @@ def generate_solution(self, mem, temperature=0):
 
     def generate_reflexion(self, mem, temperature):
         if mem.pass_call:
+            logger.debug(f"Skipping reflection for {mem.ps.filename} - already passed")
             return
         reflect_txt = prompt_for_reflection.prompt.format(
             problem=mem.ps.instruction,
diff --git a/src/agents/reflexion_oneshot_ROCm.py b/src/agents/reflexion_oneshot_ROCm.py
index 5e5b369..c0aa73f 100644
--- a/src/agents/reflexion_oneshot_ROCm.py
+++ b/src/agents/reflexion_oneshot_ROCm.py
@@ -78,25 +78,29 @@ class Memory(metaclass=MemoryClassMeta, field_names=["ps",
     def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None, iteration_num=0, temperature=0):
         data_len = datalen if datalen else len(self.dataset)
         for iter in range(iteration_num):
+            # Filter only failed kernels for this iteration
+            failed_memories = [mem for mem in self.memories[:data_len] if not mem.pass_exe]
+            
+            if not failed_memories:
+                logger.info(f"\n=== All kernels passed, stopping at iteration {iter} ===")
+                break
+                
             logger.info(f"\n=== Iteration {iter} ===")
-            if output_path is not None:
-                root, extension = os.path.splitext(output_path)
-                iter_path = f"{root}_{iter}{extension}"
+            logger.info(f"Processing {len(failed_memories)} failed kernels out of {data_len} total")
 
             if multi_thread:
                 thread_num = 3
             
-            # generate solution
-            logger.info(f"\ngenerate solution")
-            with tqdm(total=data_len) as pbar:
+            # generate solution for failed kernels only
+            logger.info(f"\ngenerate solution for failed kernels")
+            with tqdm(total=len(failed_memories)) as pbar:
                 if multi_thread:
-                    
                     with ThreadPoolExecutor(max_workers=thread_num) as executor:
-                        futures = {executor.submit(self.generate_solution, mem, temperature): mem for mem in self.memories[:data_len]}
+                        futures = {executor.submit(self.generate_solution, mem, temperature): mem for mem in failed_memories}
                         for future in as_completed(futures):
                             pbar.update(1)
                 else:
-                    for mem in self.memories[:data_len]:
+                    for mem in failed_memories:
                         self.generate_solution(mem, temperature=temperature)
                         pbar.update(1)
             
@@ -115,9 +119,7 @@ def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None,
                 exe_dir = f"{root}_pass_exe"
                 perf_result_dir = f"{root}_perf_results"
             
-            for mem in tqdm(self.memories[:data_len]):
-                if mem.pass_exe:
-                    continue
+            for mem in tqdm(failed_memories):
                 try:
                     pass_call, pass_exe, call_stdout, call_stderr, exe_stdout, exe_stderr = self.dataset.test_opt_correctness(mem.ps.solution, mem.ps.filename, tmp_dir, exe_dir=exe_dir)
                 
@@ -131,6 +133,7 @@ def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None,
                     mem.err_msg = exe_stderr
                 else:
                     mem.pass_exe = True
+                    mem.err_msg = None  # Clear previous error
             """
             To measure kernel speedup, follow these steps:
             
@@ -161,16 +164,17 @@ def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None,
             """     
             
 
-            # generate reflections
-            logger.info(f"\ngenerate reflections")
-            with tqdm(total=data_len) as pbar:
+            # generate reflections for failed kernels only
+            logger.info(f"\ngenerate reflections for failed kernels")
+            still_failed_memories = [mem for mem in failed_memories if not mem.pass_exe]
+            with tqdm(total=len(still_failed_memories)) as pbar:
                 if multi_thread:
                     with ThreadPoolExecutor(max_workers=thread_num) as executor:
-                        futures = {executor.submit(self.generate_reflexion, mem, temperature): mem for mem in self.memories[:data_len]}
+                        futures = {executor.submit(self.generate_reflexion, mem, temperature): mem for mem in still_failed_memories}
                         for future in as_completed(futures):
                             pbar.update(1)
                 else:
-                    for mem in self.memories[:data_len]:
+                    for mem in still_failed_memories:
                         self.generate_reflexion(mem, temperature=temperature)
                         pbar.update(1)
             
@@ -181,6 +185,7 @@ def run(self, output_path=None, multi_thread=True, verbose=False, datalen=None,
     
     def generate_solution(self, mem, temperature=0):
         if mem.pass_exe:
+            logger.debug(f"Skipping {mem.ps.filename} - already passed")
             return
         
         tab = "\n"
@@ -217,6 +222,7 @@ def generate_solution(self, mem, temperature=0):
 
     def generate_reflexion(self, mem, temperature):
         if mem.pass_exe:
+            logger.debug(f"Skipping reflection for {mem.ps.filename} - already passed")
             return
         reflect_txt = prompt_for_reflection.prompt.format(
             problem=mem.ps.instruction,
diff --git a/src/configs/tritonbench_oneshot_config.yaml b/src/configs/tritonbench_oneshot_config.yaml
index b54bc4c..be0b04b 100644
--- a/src/configs/tritonbench_oneshot_config.yaml
+++ b/src/configs/tritonbench_oneshot_config.yaml
@@ -1,7 +1,8 @@
 # LLM model
-api_key: ""
+api_key: "wisemodel-lpjwbkzybasaizealiwx"
+# api_key: "wisemodel-vzelpgxleuvotybtfeqh"
 model_id: "Kimi-K2-Instruct"
-temperature: 1.0
+temperature: 1
 
 # TritonBench
 statis_path: "/hackathon-agent/src/dataloaders/TB_eval/data/TritonBench_G_comp_alpac_v1_hackathon.json"
diff --git a/src/dataloaders/TB_eval/__pycache__/utils.cpython-312.pyc b/src/dataloaders/TB_eval/__pycache__/utils.cpython-312.pyc
index ef7453502bf33942c59ea2b7da0a5190dcfc03a2..2fe97e45a36aa57bffe84f31ead7bfa4ff3bb984 100644
GIT binary patch
delta 20
acmZ3RzBZlvG%qg~0}w2WU$v2Ykud;890p?m

delta 20
acmZ3RzBZlvG%qg~0}vF%&DqGk$QS@aRt6pb

diff --git a/src/dataloaders/__pycache__/ProblemState.cpython-312.pyc b/src/dataloaders/__pycache__/ProblemState.cpython-312.pyc
index 041258da8695d655df08fcd5067365004d082324..25f34329f5a3be161f303337dbd830cf83c38e0f 100644
GIT binary patch
delta 20
acmZ3?xtNptG%qg~0}w2WU$v2Y1`7Z-B?Vdl

delta 20
acmZ3?xtNptG%qg~0}vF%&DqF3g9QLIUj-Ea

diff --git a/src/dataloaders/__pycache__/TritonBench.cpython-312.pyc b/src/dataloaders/__pycache__/TritonBench.cpython-312.pyc
index ad4c954d6ce071bdc2f2335b6c38ed1a4e2e0521..49d38f5eed9cc619a844cb3498ffffa216574101 100644
GIT binary patch
delta 22
ccmdnn$hfzWk^3|+FBbz4EQ?>Yk$aN^08cUo)&Kwi

delta 22
ccmdnn$hfzWk^3|+FBbz46vWNh$i2w{08MNLkpKVy

diff --git a/src/good/flash_decode2_phi.py b/src/good/flash_decode2_phi.py
new file mode 100644
index 0000000..9fce41a
--- /dev/null
+++ b/src/good/flash_decode2_phi.py
@@ -0,0 +1,143 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(B_Seqlen, Mid_O, Mid_O_LogExpSum, Out, stride_mid_ob, stride_mid_oh, stride_mid_os, stride_mid_od, stride_mid_o_eb, stride_mid_o_eh, stride_mid_o_es, stride_ob, stride_oh, stride_od, BLOCK_SEQ: tl.constexpr, BLOCK_DMODEL: tl.constexpr):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+    seq_len = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+    sum_exp = 0.0
+    max_logic = -float('inf')
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    for block_id in range(0, block_n_size):
+        ptr_tv = Mid_O + cur_batch * stride_mid_ob + cur_head * stride_mid_oh + block_id * stride_mid_os + offs_d * stride_mid_od
+        tv = tl.load(ptr_tv)
+        ptr_tlogic = Mid_O_LogExpSum + cur_batch * stride_mid_o_eb + cur_head * stride_mid_o_eh + block_id * stride_mid_o_es
+        tlogic = tl.load(ptr_tlogic)
+        max_prev = max_logic
+        max_logic = tl.maximum(max_prev, tlogic)
+        sum_exp = sum_exp * tl.exp(max_prev - max_logic) + tl.exp(tlogic - max_logic)
+        acc = acc * tl.exp(max_prev - max_logic) + tv * tl.exp(tlogic - max_logic)
+    result = acc / (sum_exp + 1e-06)
+    ptr_out = Out + cur_batch * stride_ob + cur_head * stride_oh + offs_d * stride_od
+    tl.store(ptr_out, result.to(ptr_out.dtype.element_ty))
+
+@torch.no_grad()
+def flash_decode_stage2(Mid_O: torch.Tensor, Mid_O_LogExpSum: torch.Tensor, B_Seqlen: torch.Tensor, Out: torch.Tensor, block_seq: int):
+    batch, head_num, seq_blocks, BLOCK_DMODEL = Mid_O.shape
+    triton_grid = (batch, head_num)
+    _fwd_kernel_flash_decode_stage2[triton_grid](B_Seqlen, Mid_O, Mid_O_LogExpSum, Out, Mid_O.stride(0), Mid_O.stride(1), Mid_O.stride(2), Mid_O.stride(3), Mid_O_LogExpSum.stride(0), Mid_O_LogExpSum.stride(1), Mid_O_LogExpSum.stride(2), Out.stride(0), Out.stride(1), Out.stride(2), BLOCK_SEQ=block_seq, BLOCK_DMODEL=BLOCK_DMODEL, num_warps=4, num_stages=2)
+    return
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/good/l2_norm_bwd.py b/src/good/l2_norm_bwd.py
new file mode 100644
index 0000000..a62b863
--- /dev/null
+++ b/src/good/l2_norm_bwd.py
@@ -0,0 +1,110 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(X, DY, DX, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DY += row * stride_x_row
+    DX += row * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x * x, axis=0)
+    scale_k = 1.0 / (var + eps)
+    rstd = tl.math.sqrt(scale_k)
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * scale_k * rstd * x
+    tl.store(DX + cols, dx.to(DX.dtype.element_ty), mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float=1e-05):
+    x_shape_og = x.shape
+    x = x.reshape(-1, x_shape_og[-1])
+    dy = dy.reshape(-1, x_shape_og[-1])
+    if x.stride(1) != 1:
+        x = x.contiguous()
+    if dy.stride(1) != 1:
+        dy = dy.contiguous()
+    M, N = x.shape
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This L2-norm backward doesn't support feature dim >= 64KB.")
+    dx = torch.empty_like(x)
+    _l2_norm_bwd_kernel[M,](x, dy, dx, x.stride(0), N, eps, BLOCK_N)
+    return dx.reshape(x_shape_og)
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/good/l2_norm_triton1.py b/src/good/l2_norm_triton1.py
new file mode 100644
index 0000000..e6a3f4d
--- /dev/null
+++ b/src/good/l2_norm_triton1.py
@@ -0,0 +1,93 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row_idx = tl.program_id(0)
+    row_off = row_idx * stride_x_row
+    col_idx = tl.arange(0, BLOCK_N)
+    mask = col_idx < N
+    x = tl.load(X + row_off + col_idx, mask=mask, other=0.0).to(tl.float32)
+    ssq = tl.sum(x * x)
+    rstd = tl.math.rsqrt(ssq + eps)
+    y = x * rstd
+    tl.store(Y + row_off + col_idx, y, mask=mask)
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float=1e-06) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.view(-1, x_shape_og[-1]).contiguous()
+    M, N = x.shape
+    y = torch.empty_like(x)
+    MAX_FUSED = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise NotImplementedError('N > BLOCK_N not handled in 1-pass kernel')
+    grid = (M,)
+    with torch.cuda.device(x.device):
+        _l2_norm_fwd_1pass_kernel[grid](x, y, x.stride(0), N, eps, BLOCK_N)
+    return y.view(x_shape_og)
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/good/matrix_transpose.py b/src/good/matrix_transpose.py
new file mode 100644
index 0000000..cec61dd
--- /dev/null
+++ b/src/good/matrix_transpose.py
@@ -0,0 +1,74 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD, BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    x_idx = offs_m[:, None] * D_HEAD + offs_n[None, :]
+    y_idx = offs_n[:, None] * SIZE_M + offs_m[None, :]
+    mask_i = (offs_m[:, None] < SIZE_M) & (offs_n[None, :] < D_HEAD)
+    mask_o = (offs_n[:, None] < D_HEAD) & (offs_m[None, :] < SIZE_M)
+    val = tl.load(M + x_idx, mask=mask_i, other=0.0)
+    tl.store(Out + y_idx, val.trans(), mask=mask_o)
+
+def wrapper(SIZE_M: int, D_HEAD: int) -> torch.Tensor:
+    device = torch.device('cuda')
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device=device)
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device=device)
+    BLOCK_SIZE_M = 32
+    BLOCK_SIZE_N = 32
+    grid = (triton.cdiv(SIZE_M, BLOCK_SIZE_M), triton.cdiv(D_HEAD, BLOCK_SIZE_N))
+    kernel[grid](matrix, out, 1, 1, 1, 1, SIZE_M, D_HEAD, BLOCK_SIZE_M=BLOCK_SIZE_M, BLOCK_SIZE_N=BLOCK_SIZE_N)
+    return out
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/good/matrix_vector_multip.py b/src/good/matrix_vector_multip.py
new file mode 100644
index 0000000..7ff22a1
--- /dev/null
+++ b/src/good/matrix_vector_multip.py
@@ -0,0 +1,74 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def mv_kernel(A_ptr, B_ptr, C_ptr, N, M, stride_am, stride_ak, stride_bk, stride_cn, BLOCK_N: tl.constexpr, BLOCK_M: tl.constexpr):
+    pid = tl.program_id(0)
+    row_start = pid * BLOCK_N
+    offs_n = row_start + tl.arange(0, BLOCK_N)
+    col_start = 0
+    acc = tl.zeros((BLOCK_N,), dtype=tl.float32)
+    for col_start in range(0, M, BLOCK_M):
+        offs_m = col_start + tl.arange(0, BLOCK_M)
+        a_idx = A_ptr + offs_n[:, None] * stride_am + offs_m[None, :] * stride_ak
+        a_mask = (offs_n[:, None] < N) & (offs_m[None, :] < M)
+        a_vals = tl.load(a_idx, mask=a_mask, other=0.0)
+        b_idx = B_ptr + offs_m * stride_bk
+        b_mask = offs_m < M
+        b_vals = tl.load(b_idx, mask=b_mask, other=0.0)
+        acc += tl.sum(a_vals * b_vals[None, :], axis=1)
+    c_idx = C_ptr + offs_n * stride_cn
+    c_mask = offs_n < N
+    tl.store(c_idx, acc, mask=c_mask)
+
+def mv(A: torch.Tensor, B: torch.Tensor) -> torch.Tensor:
+    assert A.dim() == 2 and B.dim() == 1, 'A must be 2D and B must be 1D'
+    assert A.size(1) == B.size(0), 'Inner matrix dimensions must agree'
+    N, M = A.shape
+    C = torch.empty((N,), dtype=torch.float32, device=A.device)
+
+    def grid(meta):
+        return (triton.cdiv(N, meta['BLOCK_N']),)
+    mv_kernel[grid](A, B, C, N, M, A.stride(0), A.stride(1), B.stride(0), C.stride(0), BLOCK_N=32, BLOCK_M=32)
+    return C
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/good/rotary_transform.py b/src/good/rotary_transform.py
new file mode 100644
index 0000000..f1e0ffc
--- /dev/null
+++ b/src/good/rotary_transform.py
@@ -0,0 +1,196 @@
+import torch
+import triton
+import triton.language as tl
+from typing import Union, Optional
+
+@triton.jit
+def rotary_kernel(OUT, X, COS, SIN, CU_SEQLENS, SEQLEN_OFFSETS, seqlen, nheads, rotary_dim, seqlen_ro, CACHE_KEY_SEQLEN, stride_out_batch, stride_out_seqlen, stride_out_nheads, stride_out_headdim, stride_x_batch, stride_x_seqlen, stride_x_nheads, stride_x_headdim, BLOCK_K: tl.constexpr, IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr, IS_VARLEN: tl.constexpr, INTERLEAVED: tl.constexpr, CONJUGATE: tl.constexpr, BLOCK_M: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_batch = tl.program_id(1)
+    pid_head = tl.program_id(2)
+    rotary_dim_half = rotary_dim // 2
+    if not IS_VARLEN:
+        X = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        OUT = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        X = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        OUT = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+    if pid_m * BLOCK_M >= seqlen:
+        return
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    rk = tl.arange(0, BLOCK_K)
+    rk_half = tl.arange(0, BLOCK_K // 2)
+    if not INTERLEAVED:
+        x0_ptr = X + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x1_ptr = x0_ptr + rotary_dim_half * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * rotary_dim_half + rk_half[None, :]
+        sin_ptr = SIN + rm_cs[:, None] * rotary_dim_half + rk_half[None, :]
+        cos = tl.load(cos_ptr, mask=(rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half), other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=(rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half), other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half), other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half), other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+        out0_ptr = OUT + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim
+        out1_ptr = out0_ptr + rotary_dim_half * stride_out_headdim
+        tl.store(out0_ptr, o0, mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half))
+        tl.store(out1_ptr, o1, mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half))
+    else:
+        rk_swap = rk + (rk + 1) % 2 * 2 - 1
+        rk_repeat = tl.arange(0, BLOCK_K) // 2
+        x0_ptr = X + rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim
+        x1_ptr = X + rm[:, None] * stride_x_seqlen + rk_swap[None, :] * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * rotary_dim_half + rk_repeat[None, :]
+        sin_ptr = SIN + rm_cs[:, None] * rotary_dim_half + rk_repeat[None, :]
+        cos = tl.load(cos_ptr, mask=(rm_cs[:, None] < seqlen_ro) & (rk_repeat[None, :] < rotary_dim_half), other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=(rm_cs[:, None] < seqlen_ro) & (rk_repeat[None, :] < rotary_dim_half), other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=(rm[:, None] < seqlen) & (rk[None, :] < rotary_dim), other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=(rm[:, None] < seqlen) & (rk_swap[None, :] < rotary_dim), other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        out = tl.where(rk[None, :] % 2 == 0, x0 * cos - x1 * sin, x0 * cos + x1 * sin)
+        out_ptr = OUT + rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim
+        tl.store(out_ptr, out, mask=(rm[:, None] < seqlen) & (rk[None, :] < rotary_dim))
+
+def apply_rotary(x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, seqlen_offsets: Union[int, torch.Tensor]=0, cu_seqlens: Optional[torch.Tensor]=None, max_seqlen: Optional[int]=None, interleaved: bool=False, inplace: bool=False, conjugate: bool=False) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        assert x.ndim == 4, 'Expected 4-D tensor [batch, seqlen, heads, dim] for non-varlen inputs'
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None, 'If cu_seqlens is provided, max_seqlen must be specified'
+        assert x.ndim == 3, 'Expected 3-D tensor [total_seqlen, heads, dim] for varlen inputs'
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim, 'rotary_dim must be <= headdim'
+    assert cos.dtype == sin.dtype and x.dtype == cos.dtype
+    assert seqlen_ro >= seqlen, 'seqlen_ro must be >= seqlen'
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in (torch.int32, torch.int64)
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert int(seqlen_offsets) + seqlen <= seqlen_ro
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and (not inplace):
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:]) if not is_varlen else output[:, rotary_dim:].copy_(x[:, rotary_dim:])
+    BLOCK_K = 32 if rotary_dim <= 32 else 64 if rotary_dim <= 64 else 128 if rotary_dim <= 128 else 256
+    BLOCK_M = 4 if interleaved else 8 if rotary_dim <= 64 else 4
+    grid = lambda META: (triton.cdiv(seqlen, META['BLOCK_M']), batch, nheads)
+
+    def stride_or_zero(tensor, idx, fixed=None):
+        return tensor.stride(idx) if fixed is None else fixed
+    with torch.cuda.device(x.device.index):
+        rotary_kernel[grid](output, x, cos, sin, cu_seqlens, seqlen_offsets, seqlen, nheads, rotary_dim, seqlen_ro, seqlen // 128, stride_or_zero(output, -4, 0) if not is_varlen else 0, output.stride(-3), output.stride(-2), output.stride(-1), stride_or_zero(x, -4, 0) if not is_varlen else 0, x.stride(-3), x.stride(-2), x.stride(-1), BLOCK_K, isinstance(seqlen_offsets, torch.Tensor), is_varlen, interleaved, conjugate, BLOCK_M)
+    return output
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/good/sin_kernel.py b/src/good/sin_kernel.py
new file mode 100644
index 0000000..134a422
--- /dev/null
+++ b/src/good/sin_kernel.py
@@ -0,0 +1,86 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel_function(x_ptr, output_ptr, n_elements, BLOCK_SIZE: tl.constexpr):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    out = tl.math.sin(x)
+    tl.store(output_ptr + offsets, out, mask=mask)
+
+def call_kernel(x: torch.Tensor, BLOCK_SIZE: int=128) -> torch.Tensor:
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda META: (triton.cdiv(n_elements, META['BLOCK_SIZE']),)
+    kernel_function[grid](x, output, n_elements, BLOCK_SIZE=BLOCK_SIZE)
+    return output
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/good/triton_matmul.py b/src/good/triton_matmul.py
new file mode 100644
index 0000000..df3bfad
--- /dev/null
+++ b/src/good/triton_matmul.py
@@ -0,0 +1,87 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr, M, N, K, stride_am, stride_ak, stride_bk, stride_bn, stride_cm, stride_cn, BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_n[None, :] * stride_bn)
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        k_remaining = K - k * BLOCK_SIZE_K
+        a_mask = (offs_m[:, None] < M) & (offs_k[None, :] < k_remaining)
+        b_mask = (offs_k[:, None] < k_remaining) & (offs_n[None, :] < N)
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+        b = tl.load(b_ptrs, mask=b_mask, other=0.0)
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator.to(c_ptr.type.element_ty), mask=c_mask)
+
+def matmul(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.device == b.device and a.dtype == b.dtype, 'Input tensors must be on the same device and dtype'
+    assert a.shape[1] == b.shape[0], 'Incompatible dimensions for matrix multiplication'
+    M, K = a.shape
+    _, N = b.shape
+    c = torch.empty((M, N), dtype=a.dtype, device=a.device)
+    block_size_m = 64
+    block_size_n = 64
+    block_size_k = 32
+    if a.dtype == torch.float16:
+        num_warps = 4
+        num_stages = 3
+    else:
+        num_warps = 8
+        num_stages = 2
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']), triton.cdiv(N, META['BLOCK_SIZE_N']))
+    matmul_kernel[grid](a, b, c, M, N, K, a.stride(0), a.stride(1), b.stride(0), b.stride(1), c.stride(0), c.stride(1), BLOCK_SIZE_M=block_size_m, BLOCK_SIZE_N=block_size_n, BLOCK_SIZE_K=block_size_k)
+    return c
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/memories/__pycache__/Memory.cpython-312.pyc b/src/memories/__pycache__/Memory.cpython-312.pyc
index 09f82b91d9ce14030c7823c89dc54caace80ecb4..a738e8ad7e106bcfeb8e41374a2ee6eb30064896 100644
GIT binary patch
delta 20
acmcb?b%TrhG%qg~0}w2WU$v3jmlXg#k_CJK

delta 20
acmcb?b%TrhG%qg~0}vF%&DqH9%L)KH%mp_9

diff --git a/src/models/KimiK2.py b/src/models/KimiK2.py
index 9728de8..d65c1fa 100644
--- a/src/models/KimiK2.py
+++ b/src/models/KimiK2.py
@@ -25,6 +25,7 @@ def __init__(self,
             #api_key = "wisemodel-xxvqzbsnecjtoxufxodx",
             api_key=api_key,
             base_url = "https://laiyeapi.aifoundrys.com:7443/v1",
+            # base_url = "https://api.siliconflow.cn/v1",
             default_headers = headers
         )
         
diff --git a/src/models/__pycache__/Base.cpython-312.pyc b/src/models/__pycache__/Base.cpython-312.pyc
index 0ad2c7349939c7e2b124bb94e94bd8b3f3172b23..838ccf56433a55800304b2734ade7026c2b0fecc 100644
GIT binary patch
delta 20
acmey)@|}hIG%qg~0}w2WU$v1thY0{dj|IvA

delta 20
acmey)@|}hIG%qg~0}vF%&DqGE!vp|7$pwV~

diff --git a/src/models/__pycache__/KimiK2.cpython-312.pyc b/src/models/__pycache__/KimiK2.cpython-312.pyc
index 34c5a6765825d2537bf37a5e5d6d5131d020ec19..f42b878d0c91fd20d074bfa340679c41695429bf 100644
GIT binary patch
delta 67
zcmZn{Y!~D`&CAQh00hh8S7jXC$lJoq_CQYc3pd;5>C6Y27!@{0ve`4Tim-Bh)R{b&
U{WiZQqwxgIuM9w{NCKz}0FW*cR{#J2

delta 67
zcmZn{Y!~D`&CAQh00aebb27R&^0qLu-H=oL!pXXMI`cs$M)}Q=Z1#+-!mL~$wI<JH
Uzs;|~XgoplD+7=!k^t%g0CX4;#{d8T

diff --git a/src/pass_exe/embedding_triton_kernel.py b/src/pass_exe/embedding_triton_kernel.py
new file mode 100644
index 0000000..2597abb
--- /dev/null
+++ b/src/pass_exe/embedding_triton_kernel.py
@@ -0,0 +1,102 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    ptr_ids,         # 1d raw pointer
+    ptr_weight,      # 1d raw pointer
+    ptr_out,         # 1d raw pointer
+    stride_ids_b,
+    stride_ids_l,
+    stride_weight_v,
+    stride_weight_d,
+    stride_out_b,
+    stride_out_l,
+    stride_out_d,
+    vob_start_id,
+    B,
+    L,
+    D,
+    V,
+    BLOCK_L: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_b = tl.program_id(0)
+    pid_l_blk = tl.program_id(1)
+    pid_d_blk = tl.program_id(2)
+
+    offs_l = pid_l_blk * BLOCK_L + tl.arange(0, BLOCK_L)
+    offs_d = pid_d_blk * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_l = offs_l < L
+    mask_d = offs_d < D
+
+    ids_base = ptr_ids + pid_b * stride_ids_b
+    idxs = tl.load(ids_base + offs_l * stride_ids_l,
+                   mask=mask_l, other=0).to(tl.int32)
+    idxs = idxs - vob_start_id
+    idxs = idxs[:, None]
+
+    w_base = ptr_weight
+    w_row_stride = stride_weight_v
+    w_col_stride = stride_weight_d
+    weight_ptrs = w_base + \
+        idxs * w_row_stride + offs_d[None, :] * w_col_stride
+
+    mask_v = (idxs >= 0) & (idxs < V)
+    mask = mask_l[:, None] & mask_d[None, :] & mask_v
+
+    embs = tl.load(weight_ptrs, mask=mask, other=0.0)
+
+    out_base = ptr_out + pid_b * stride_out_b
+    out_ptrs = out_base + \
+        offs_l[:, None] * stride_out_l + offs_d[None, :] * stride_out_d
+    tl.store(out_ptrs, embs, mask=mask)
+
+def embedding(
+    ids: torch.Tensor,
+    weight: torch.Tensor,
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor,
+) -> torch.Tensor:
+    assert ids.dtype in (torch.int32, torch.int64)
+    assert weight.ndim == 2
+    inferred_D = weight.shape[1]
+    if out.numel() == 0:
+        out = torch.empty((*ids.shape, inferred_D), dtype=weight.dtype, device=weight.device)
+    else:
+        assert out.shape[:-1] == ids.shape
+        assert out.shape[-1] == inferred_D
+
+    B = ids.shape[0]
+    L = ids.shape[1] if ids.ndim == 2 else 1
+    ids = ids.view(B, L)
+    out = out.view(B, L, inferred_D)
+
+    D = inferred_D
+    V = vob_end_id - vob_start_id
+    assert V <= weight.shape[0]
+
+    BLOCK_L = 64
+    BLOCK_D = triton.next_power_of_2(D)
+
+    grid = (B, triton.cdiv(L, BLOCK_L), triton.cdiv(D, BLOCK_D))
+
+    embedding_kernel[grid](
+        ids, weight, out,
+        ids.stride(0),
+        ids.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        vob_start_id,
+        B, L, D, V,
+        BLOCK_L=BLOCK_L,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
diff --git a/src/pass_exe/flash_decode2_phi.py b/src/pass_exe/flash_decode2_phi.py
new file mode 100644
index 0000000..1e7431d
--- /dev/null
+++ b/src/pass_exe/flash_decode2_phi.py
@@ -0,0 +1,91 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_bseqlen,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_olesb,
+    stride_mid_olesh,
+    stride_mid_oles,
+    stride_oub,
+    stride_ouh,
+    stride_oud,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_head = tl.program_id(1)
+    cur_batch = tl.program_id(0)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    seq_len = tl.load(B_Seqlen + cur_batch * stride_bseqlen)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    for block_n in range(block_n_size):
+        tv = tl.load(Mid_O + cur_batch * stride_mid_ob + cur_head * stride_mid_oh +
+                     block_n * stride_mid_os + offs_d * stride_mid_od)
+        tlogic = tl.load(Mid_O_LogExpSum + cur_batch * stride_mid_olesb +
+                         cur_head * stride_mid_olesh + block_n * stride_mid_oles)
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        new_scale = tl.exp(tlogic - new_max_logic)
+
+        acc = acc * old_scale + tv * new_scale
+        sum_exp = sum_exp * old_scale + new_scale
+        max_logic = new_max_logic
+
+    acc = acc / sum_exp
+    tl.store(Out + cur_batch * stride_oub + cur_head * stride_ouh + offs_d * stride_oud, acc)
+
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    block_seq: int
+):
+    batch = B_Seqlen.shape[0]
+    head_num = Mid_O.shape[1]
+    assert Mid_O_LogExpSum.shape[1] == head_num
+
+    BLOCK_SEQ = block_seq
+    BLOCK_DMODEL = Mid_O.shape[3]
+
+    _fwd_kernel_flash_decode_stage2[(batch, head_num)](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0),
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2
+    )
+    return Out
diff --git a/src/pass_exe/l2_norm_bwd.py b/src/pass_exe/l2_norm_bwd.py
new file mode 100644
index 0000000..d88ac96
--- /dev/null
+++ b/src/pass_exe/l2_norm_bwd.py
@@ -0,0 +1,55 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DY += row * stride_x_row
+    DX += row * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+    x_masked = tl.where(mask, x, 0.0)
+    var = tl.sum(x_masked * x_masked)
+    rstd = 1 / tl.sqrt(var + eps)
+    dx = dy * rstd - tl.sum(dy * x_masked) * rstd / (var + eps) * x
+    tl.store(DX + cols, dx, mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+    dx = torch.empty_like(x)
+    N = x.shape[-1]
+    M = x.shape[0]
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This layer norm doesn't support feature dim >= 64KB.")
+    grid = (M,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N,
+    )
+    return dx.reshape(x_shape_og)
diff --git a/src/pass_exe/l2_norm_triton1.py b/src/pass_exe/l2_norm_triton1.py
new file mode 100644
index 0000000..1f14639
--- /dev/null
+++ b/src/pass_exe/l2_norm_triton1.py
@@ -0,0 +1,49 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr
+):
+    row_id = tl.program_id(0)
+    row_start = X + row_id * stride_x_row
+    row_out_start = Y + row_id * stride_x_row
+
+    col_offsets = tl.arange(0, BLOCK_N)
+    mask = col_offsets < N
+
+    x_vals = tl.load(row_start + col_offsets, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x_vals * x_vals)
+    rstd = 1.0 / tl.sqrt(var + eps)
+
+    out_vals = x_vals * rstd
+    tl.store(row_out_start + col_offsets, out_vals, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-6):
+    x = x.contiguous()
+    shape = x.shape
+    if x.ndim > 2:
+        x = x.view(-1, x.shape[-1])
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    element_size = x.element_size()
+    MAX_FUSED = 65536 // element_size
+    BLOCK_N = min(MAX_FUSED, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError("N too large")
+
+    grid = lambda META: (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    return y.view(shape)
diff --git a/src/pass_exe/matrix_transpose.py b/src/pass_exe/matrix_transpose.py
new file mode 100644
index 0000000..3380832
--- /dev/null
+++ b/src/pass_exe/matrix_transpose.py
@@ -0,0 +1,47 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = tl.arange(0, SIZE_M)
+    offs_n = tl.arange(0, D_HEAD)
+
+    matrix_ptr = M + offs_n[None, :] * matrix_stridex + offs_m[:, None] * matrix_stridey
+    out_ptr    = Out + offs_n[None, :] * out_stridey + offs_m[:, None] * out_stridex
+
+    x = tl.load(matrix_ptr)
+    tl.store(out_ptr, x)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device=device)
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device=device)
+
+    grid = (D_HEAD, SIZE_M)
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(1),
+        matrix.stride(0),
+        out.stride(1),
+        out.stride(0),
+        SIZE_M=SIZE_M,
+        D_HEAD=D_HEAD,
+    )
+
+    return out
diff --git a/src/pass_exe/matrix_vector_multip.py b/src/pass_exe/matrix_vector_multip.py
new file mode 100644
index 0000000..9f2680a
--- /dev/null
+++ b/src/pass_exe/matrix_vector_multip.py
@@ -0,0 +1,47 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A, B, C, N, M, BLOCK_N: tl.constexpr, BLOCK_M: tl.constexpr):
+    pid_n = tl.program_id(0)
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    offs_m = tl.arange(0, BLOCK_M)
+
+    acc = tl.zeros([BLOCK_N], dtype=tl.float32)
+
+    for m_start in range(0, M, BLOCK_M):
+        offs_m_cur = m_start + offs_m
+        mask_m = offs_m_cur < M
+        offs_a = A + offs_n[:, None] * M + offs_m_cur[None, :]
+        mask_a = (offs_n[:, None] < N) & mask_m[None, :]
+        a_block = tl.load(offs_a, mask=mask_a, other=0.0)
+        offs_b = B + offs_m_cur
+        b_vals = tl.load(offs_b, mask=mask_m, other=0.0)
+        acc += tl.sum(a_block * b_vals[None, :], axis=1)
+
+    offs_c = C + offs_n
+    mask_c = offs_n < N
+    tl.store(offs_c, acc.to(C.type.element_ty), mask=mask_c)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor) -> torch.Tensor:
+    assert A.dim() == 2 and B.dim() == 1, "A must be 2-D and B must be 1-D"
+    N, M = A.shape
+    assert B.shape[0] == M, "Dimension mismatch: B must have size M where A is NxM"
+    C = torch.empty((N,), dtype=A.dtype, device=A.device)
+
+    BLOCK_N = 64
+    BLOCK_M = 64
+    grid = lambda META: (triton.cdiv(N, META['BLOCK_N']),)
+
+    mv_kernel[grid](
+        A, B, C,
+        N, M,
+        BLOCK_N=BLOCK_N,
+        BLOCK_M=BLOCK_M
+    )
+
+    return C
diff --git a/src/pass_exe/rotary_transform.py b/src/pass_exe/rotary_transform.py
new file mode 100644
index 0000000..8baa298
--- /dev/null
+++ b/src/pass_exe/rotary_transform.py
@@ -0,0 +1,171 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    stride_cos_seqlen,
+    stride_cos_dim,
+    stride_sin_seqlen,
+    stride_sin_dim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    ROTARY_DIM_HALF: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+    if not IS_VARLEN:
+        cur_seqlen = seqlen
+        x_ptr = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        cur_seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - seq_start
+        x_ptr = X + seq_start * stride_x_seqlen + pid_head * stride_x_nheads
+        out_ptr = OUT + seq_start * stride_out_seqlen + pid_head * stride_out_nheads
+    if pid_m * BLOCK_M >= cur_seqlen:
+        return
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rk_half = tl.arange(0, BLOCK_K // 2)
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        offset = tl.load(SEQLEN_OFFSETS + pid_batch)
+    else:
+        offset = SEQLEN_OFFSETS
+    rm_cs = rm + offset
+    rm_cs = tl.where(rm_cs < seqlen_ro, rm_cs, seqlen_ro - 1)
+    if not INTERLEAVED:
+        x0_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x1_ptr = x_ptr + rm[:, None] * stride_x_seqlen + (rk_half + ROTARY_DIM_HALF)[None, :] * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * stride_cos_seqlen + rk_half[None, :] * stride_cos_dim
+        sin_ptr = SIN + rm_cs[:, None] * stride_sin_seqlen + rk_half[None, :] * stride_sin_dim
+        mask_m = rm[:, None] < cur_seqlen
+        mask_k_half = rk_half[None, :] < ROTARY_DIM_HALF
+        cos = tl.load(cos_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half, other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=mask_m & mask_k_half, other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_m & mask_k_half, other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 o0, mask=mask_m & mask_k_half)
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + (rk_half + ROTARY_DIM_HALF)[None, :] * stride_out_headdim,
+                 o1, mask=mask_m & mask_k_half)
+    else:
+        rk_even = 2 * tl.arange(0, ROTARY_DIM_HALF)
+        rk_odd = 2 * tl.arange(0, ROTARY_DIM_HALF) + 1
+        x0_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_even[None, :] * stride_x_headdim
+        x1_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_odd[None, :] * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * stride_cos_seqlen + tl.arange(0, ROTARY_DIM_HALF)[None, :] * stride_cos_dim
+        sin_ptr = SIN + rm_cs[:, None] * stride_sin_seqlen + tl.arange(0, ROTARY_DIM_HALF)[None, :] * stride_sin_dim
+        mask_m = rm[:, None] < cur_seqlen
+        mask_half = tl.arange(0, ROTARY_DIM_HALF)[None, :] < ROTARY_DIM_HALF
+        cos = tl.load(cos_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_half, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_half, other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=mask_m & mask_half, other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_m & mask_half, other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_even[None, :] * stride_out_headdim,
+                 o0, mask=mask_m & mask_half)
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_odd[None, :] * stride_out_headdim,
+                 o1, mask=mask_m & mask_half)
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    """Apply rotary embedding to the input tensor x using Triton kernels optimized for AMD GPU ROCm."""
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        if max_seqlen is None:
+            raise ValueError("max_seqlen must be provided if cu_seqlens is used")
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim
+    assert headdim <= 256
+    assert seqlen_ro >= seqlen
+    assert cos.dtype == sin.dtype == x.dtype
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in [torch.int32, torch.int64]
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert seqlen_offsets + seqlen <= seqlen_ro
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = (
+        32 if rotary_dim <= 32 else
+        64 if rotary_dim <= 64 else
+        128 if rotary_dim <= 128 else 256
+    )
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    with torch.cuda.device(x.device.index):
+        rotary_kernel[grid](
+            output, x, cos, sin, cu_seqlens, seqlen_offsets,
+            seqlen, nheads, rotary_dim, seqlen_ro,
+            0,
+            output.stride(0) if not is_varlen else 0,
+            output.stride(-3), output.stride(-2), output.stride(-1),
+            x.stride(0) if not is_varlen else 0,
+            x.stride(-3), x.stride(-2), x.stride(-1),
+            cos.stride(0), cos.stride(1),
+            sin.stride(0), sin.stride(1),
+            BLOCK_K=BLOCK_K,
+            IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+            IS_VARLEN=is_varlen,
+            INTERLEAVED=interleaved,
+            CONJUGATE=conjugate,
+            BLOCK_M=BLOCK_M,
+            ROTARY_DIM_HALF=rotary_dim_half
+        )
+    return output
diff --git a/src/pass_exe/sin_kernel.py b/src/pass_exe/sin_kernel.py
new file mode 100644
index 0000000..9787742
--- /dev/null
+++ b/src/pass_exe/sin_kernel.py
@@ -0,0 +1,25 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(x_ptr, output_ptr, n_elements, BLOCK_SIZE: tl.constexpr):
+    block_start = tl.program_id(0) * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor) -> torch.Tensor:
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda META: (triton.cdiv(n_elements, META["BLOCK_SIZE"]),)
+    kernel_function[grid](
+        x, output, n_elements,
+        BLOCK_SIZE=1024,
+    )
+    return output
diff --git a/src/pass_exe/triton_matmul.py b/src/pass_exe/triton_matmul.py
new file mode 100644
index 0000000..ade7921
--- /dev/null
+++ b/src/pass_exe/triton_matmul.py
@@ -0,0 +1,83 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = num_pid_m
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * num_pid_m
+    group_size_m = min(num_pid_m - first_pid_m, num_pid_m)
+    pid_m = first_pid_m + (pid % num_pid_m)
+    pid_n = (pid % num_pid_in_group) - pid_m * num_pid_n
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        k_offs = k * BLOCK_SIZE_K
+        mask_a = offs_k[None, :] < (K - k_offs)
+        mask_b = offs_k[:, None] < (K - k_offs)
+
+        a = tl.load(a_ptrs, mask=mask_a, other=0.0)
+        b = tl.load(b_ptrs, mask=mask_b, other=0.0)
+        accumulator += tl.dot(a, b)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(tl.float16)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    M, K = a.shape
+    K, N = b.shape
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 256
+    BLOCK_SIZE_K = 64
+    num_warps = 8
+    num_stages = 2
+
+    grid = lambda META: (triton.cdiv(M, BLOCK_SIZE_M) * triton.cdiv(N, BLOCK_SIZE_N),)
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+        num_warps=num_warps,
+        num_stages=num_stages
+    )
+
+    return c
diff --git a/src/prompts/__pycache__/prompt_for_generation.cpython-312.pyc b/src/prompts/__pycache__/prompt_for_generation.cpython-312.pyc
index 29e23cc138d0482512bb0b41a3380383a96f3f73..72703647a317c69b7644d4e2eb73438f7f63cd3f 100644
GIT binary patch
delta 1152
zcmZWp&rcIU6t;*SR=~uAi6`HY))qp6hSYEXtb|ByBSMVElwtR^J7IQaGjEmxF{%Cu
z{s~_7WIXvdc=Y0*foCtiowl~by=->o{rJA`eQ$p^zZ@<6n4b@B@bmNg=lEUe<HDmE
zckk=tPjiDd+ODyQ&>=!Abuy8c!bziHH<J-6sgdfXQm`!uBj979g}NX~V7d^?UR+71
z3Y?<VsHhBGqm=1`i;)mg;T&I3JqT8opj3K+Q5O0ht#p9aw<B2GuflUiQicQ5b%{7H
z=6wO60*73Lr0yxKq=E?SzXJUjHKc|}o+um!@8cQQ>>-?C=!}(@Ic^3yZsXJvW!#0|
z++<J$smY<>pe`t5QW}=o5h~1-aLCE5icqk<-`aWBIoNyMfRnKrv9M8JSOmqwIVREE
zdewP)c+hwPn^0R{U#-FNGN8f)wd)XrDNZOEt>i!>2-RbpE=~xX0dZzz1WBfxOjRx(
z5mFFTbLE=CS$WQLn$US^g(g-2%fPqIOkJ1lM49lk(wD5@ln4{bgE2TCGsHHs0Zub!
zk3cBGn3<YTDCsU>akW~8+FBV_sv9F#4NVz~5gMV8LKZ&3#MlcEVTe4pu@NQ`91oUU
zPGGTk%$~8}KXNwHXs-`BSoKN_3vUezx5o|}JEm>1i+0)q%7}=Ti5-FLUA71i^AH0&
z)oFrDq^UKjmHGS=L8s)=otR8Vg876-M>2Qt$Sh5%^TpxVAuLZrc#rc;V{5Wr43Thx
zt(y@B!CKB?D|2SxGR@A0wy+{WUK77<-t`l|)#1&Q)^9zQ#E|<By3Udg+cBj&tW`FA
zTxgOsb6D}%%dk;dsSWcz(#obk9}>^A$?@uNdesN*HkwVI?{tEXhtZ;c`!)CH!NdFf
fU%9$jC={+{_X@%6``cGXGp)ki*$;Q@Ex!5-ucUva

delta 65
zcmZ1-_R*K`G%qg~0}vF%&B<_9o5-ilWX-qHdLhqdQNiz$a-u+)56p~=j2~DGxL6w4
RKBO@EGxD=Eau=}zWdKFQ532wG

diff --git a/src/prompts/__pycache__/prompt_for_reflection.cpython-312.pyc b/src/prompts/__pycache__/prompt_for_reflection.cpython-312.pyc
index 71813cab567d2f4251c15a54b2db2ae822f7f37f..ee66664c4402389b9e6e3dededab4f8c908cfb58 100644
GIT binary patch
literal 19711
zcmeHPPj4H?6_;$qZ8k^(v`sF}Vc-BQ$&ys0I6@%g4`fSrRGYRS$w4c_phvqya;n`O
zc4t=<69jNSMQ=Uz(td@0gx-4ewO>F$ZUqYT_ukAdSGMDzh0zwt3Wl{LXWqPd|KD$h
z`s?ej2TS;Q>o0$vtle2!`a8WSf0q5j*YDur_e;^z(NeU0v>aVJx)fbLx*V+>twgUJ
zy)wVj{(+odT3QNzZ3-bXC1fhp*;Hk@(5aYZI@jq~9OAc0g~9tWH<=Y9lL<8%=}@aQ
z7q|BAi)m)YnM@K4?~AQe#`7<f$R|pSq>fc2a%FQ7N~<iEh-mn!juaNLdOXRk2ta=}
zne!BD;v(00!_TD&6EhPU6ig9E;usSXBB7$bxUPhqs!)R)A&*UwGYxHRfwe}aNTYrb
zbUODkJ=WlhmOhSEvf1eb!I%EUS2SWP&s8$b!EDKZ8&kgGL5H-DOxYsNt^1gEHgxas
zh}~prvRpzgyQ$5yBBZVG*q%6?==22aLw>4~E=eg<qge4s7EfwKLPMa6Sf-MNp)E%J
zw$K?El%rf_ywAnNe$W%7MLS^`r6w1)7>`-*6Pe;c<c8;@GEu^e_<2;Mye!QgtCSS%
z^tK=jM&)#hRbdel8i3l4V-uc;na(FnB$s3HXffeYSE&BDA6$L(=uslGlgP}{kLISx
zYTLA*;KQpyApdyzJ8ymaMVd<3oO1%`v9RP3PzEVSJ4LWuL%1J|+ZJJ{tQ{3`JckXa
zuz*$egBvExU?eF%dLb$Jz!YxaHOz#uXy|5lh3>2Vg;gU1+kivCE6APMYrR>>Sm*PF
z-N6FrQ}dKBy-Ww&cfQ3TCaVk1d0Qysc=)u-)#vzaRzh;qAjD^8HIDjkIqJ_=UbdqK
zi#!4Q^ht)zl_I`IRzSi*s7z!Us#c81l!kMPLWxTvWd?F@9^SljZ|?xMDQ;a~we2nk
z(y=~8PJ=@w2t@N*elXKqC;AH)S`nr}d`#I#I{RlX;HI`8>^+^TkeDbN!GEiODMhMg
zE;MpbJXXjhS)Kj9;1o*^4zft4&n~awh4B1|kX8&7;y?K1I8de9aNZT4$t;>trbfy^
zNDY-hu8jRox?*=9`$qP)+IGd3wJJGA3|YK&TV<(=g$cuA3bBG<aA>k{vYST8R1hBX
z?{$$EDW(6D)EqmBZxy-e;a!eqCyrET(vcn)kRatbmbyw$b!JkICZ{sfG#rxr_AD%f
zz@VBXc&A6sd4BfwMzJZr^iN+Qr!4HE<&2{1Oah}8AN}XK`hxDrQvdtenx#CID7X~a
z86|Y68^uwY<2STuvPfnBvz-37pS<i)v4|8+McGu8FRUm#oxMfYaIFY}p}0xTGBeo;
zg_OEExr8&8Xhk^oBRbd8j+jac<p^xYXkH?L;EyIjXBvfwP}IX9H;GYZ5-~w1BTlV|
zksRt2T%5F<L9o^rXfxt5>Zg2?pkLYXJybX+t`PltVw;Pxe32!vjx48G(K2bQQ<R8i
zlqd3x)=MRlT>DcueTy>##d2z(T*t<7*&>q1syCG=9$WI%=m?COsr6NS+((XF&Er0Z
zmb7+JW=<3cq6|}1kWvbbWG>O1oVr@ErCib2n`y`m%(%{Au`Xx@>$Gj3(VnwoVmY~x
z?<$#xMj~^BkbCPCl`rJ>1)gIgBfDzxQrQ}>c7n7Rm84u&#A}3n>a0!`@?gucXF<k_
z_t(2(<62j&t$$cjAy(X$K?$8Bb#e98L@Pn#r%@@xE|6R;ZMh~{+U@(a+Z!f939g=}
zU|OTLnT4oaTR>*0Bn)jNENo0>PEB6DP9=!+OumO~>?OzPw=642UW2V)4R78**x42z
zi;WLHcz;8zt_rWMAqk+qXA~6EUaTOay2(@`Y{4!flXpcQg;Hu;ZQAEG+UG&pdHcFz
z&wEQ{&YjLaB<ZZNbc9Yv+=sQ)<n|mRME$lfQfJ##8DROT!Q`iCm5g!Q@U#tfk)iW)
z?`)|hy@AXJMO-I#&lP4$T)%Vg#_i!?_3r9zCK}2Roe%n6*Alf#%PC3SjHR8_DbW_a
zvo8F%TUR~0`<l3e-~*EAUX|57D_mDq@+9kVtR3tg?Z66s4Pc$_5iD9YyJnn4A!L<4
zP*-|dBtufXU8N_BCLZ>T;*PB6TJJ-*YiDR(@nLUmgWqxXR?>kzjx&Uk3q@d6ujXZ>
zA$yJ0nYguo@BZG9I3EtkhTtX%!qmlpoohrXA9PV<Z;=^nQtUjO85h6EIh{$(CfHrw
zkPzu%A6BE{q`0$F4^K5$t9jYe)<O<^kf6=1%el3-(FQ(+#o&=+lw4lQZGi<{wNDN~
zZcqDsRwjtEj#U}}yWm=%qQ4@wAJjaZFtIWMJU31R!9bo-^Kvm!9TQYAjS(YJvU3k_
zVx%Ix+6*)>Ih5{YJ+J0<!&#UU9Hp`Z_ssTz-bI7Lb=TBX#*F+`fd;ORY7y*%iIkA)
z8S2@bH9`|aI2$K1^lH9g`i3;XMRt)Wmvv#O$LM(SIr9a^7TYGRmFoAdg<=?sQ8M&h
z9<^E2<ajK@1rlfnFr|<Y@*T_1Ecz?hHci#2t<l5mWtv;bnmli66-UUb1Mo@s=)6tV
z>H|pEKin-JZd1hQh(lV>B_cvoZ|w{QT)0#E0lJe~yor^uFk3p7=4p4F`LWS5XhSGy
znGXc25evaUp1^<DOBCCpkL?sK;#kGnCZ605TMP_|$kgJ5K%hl9*c1<H(d6NaY9Pnn
zR`i<!WmHuwmDx#A(@Sc+vknxv9!dM;rVF$CICX?>(AG^1Z`M;VjEW~xQ^1WRE3YyK
zj6t)0FZ%^*1s-5wsm=>D$}Y%_1inU?7h1Ja(vGzr5aTo|$E?#Bzy+8L?eIu%)BOAk
zv9IpjZ<nK)Vm@;u(fJ}YJG=ICTuLBVIi+fh=XFGtVQ4EQs6nEs_9LK+ESA$gg`z4-
z^Qs+$7%v!na12vHoxn~iTI0+VsORv;#x(?h3{`|}6HF0Hpm`IjNnLry@`6NmM+B)O
zfaL~*2-2Vs1#zgXhAD{NC#A%J$D!Q8$mdev`j<&$YOE2%G63@$9yuZS*h2#si!`iF
zd*xv8f@KKSPROppiJ{~V4b7ASzCA@=N8HP^IjNhle|V{)_{{c8vVbUzxRA`8%8}CO
zlM7kReNt|YRvp|wI23p99numUR2|)8H8;@M+6K^6mLLuJeCy8cHeyn+b0#Uuvnpy~
z;y~raH24e!_0KIMNFL|#rA!Ij1OJT_P)s0F3=+d*p&D6*Z)eaQ=mfY<Hbz)Pk*d=O
z9SLwzX0pOu@Ctxd$nZbAUk>D!#N)}K+ND6(gJO|hCr}6ep}Z$qSG37Cf!@1!sgg=?
zxB|-B#UvP#4|Sk4QaBv~P0Byvq`+YZR8X=b29BQ@83ne<Y9}x7<t(XEVhCBT0N;4l
ziK?rE8G|VmT&H75N!nxTKBi-rIIrr%Re(&DawX2ODA(;EPyXtJS266Sd1LPfH^G^5
zs@&uajmm_&5Fa8mEdf|wA?Mjz$uJz00iVmAD*W@S+d!mhrBE%`I@od%4~bEo5}aSL
z+ZUg4(@8SE!16*vo*&|x+@;!RNsMUnmfX<}rAU7a#79WZ*HD|mv{oZD4d`TKI(O(K
zl_vzqQZj_u?`%>WA^R9fbizJ1lj7JN`4|q+)I{OH2*LFhRf}X%fK}<hQ0#7t0rHW|
z5uwx>!Uo(1h!&JZmf__O+pI{#LR~<EdoWlj#ab`IdPseS4)|JY+ilKzE)9ZTI%y<n
zIp)}BsldcxAM2j&4H?k$gB(KbycFvf$*y~{LggX$9;p$p(t>!ADB*wk1JnsXUDNr)
zHbqUid#oNHB0Y3I`>u1b5bKerg70ltDZ)pn5)iE$aHj39a2X~;yvS0~^41(i`m_b3
zqU9c3T@-D@!Bs5R@utw{VX(GmhTX+5A{~${xj=;^QFn#~B_Zb#W#;oy6nZ0GDYjP3
zb}4kBQ*_6VUfl^D;<^|~s5l;x6|JIr1Ey0GZ5R1G8bY|R0D4NnD2$O4(Tt!5NZko#
zGjJn67HB>_g`tjG@3n<^SKLyhI&1{yLv})sBb^~^RhGc>Q*^%<=dbbn!;H#61S(?I
z(*THX(jMC&g;a|m3@#V+<Uil~&cm9`QDwph15~tq>s^5Qv14;o`TujLph18a07(t=
zsKX=;0^A_L4FXKZ5)A^}Ai#W^Z4oIO1enhPYF%lA05=FQos%{QaDxCh2ry1YfFw2u
zaDxEjSgJvQ8w9vPfN>`DeL#T!@b=3_fNNI~0mlQDrY~B3;~jW>(Fs>yrVnuIjL+Km
z9LQnt58ZhQE@0pQq`z_2W{e#dfA~vU%@z6Y?G<@k(IcB_uE_sCU6F4f>IS05jgsny
zZFNDjxujfP)NL*)<JwxUfvB5H%D5iVTvF!i_;h*7!P4%!dIM3HUjhXT(LmG<M2$=2
z%_ZgLk}_T1Zy;*AA=q3}ZXoLBl5*5sQjWhL5cS>ml_ytlT^g5Hp9Jpr5ML~M@~VFx
z%O|h-$IOJulQ$P*hWy4G)j)pzr=_pyPl^5G(^dNJyq)5X|LR1BCo-SlvNXOjif;(m
zEL?T7tp7d4ooxI~tnzPK^{4YEKl~^$5x$}IN%k7((cdSt*YMx@<>lq&^Gk0BE03?7
zzxU1?E02TokAC|4%HvnhH^b#OS02B1{>#gH`Nu1d-#q{P@?`l(E5CaqdleJ^1<KrR
AF8}}l

delta 485
zcmexAlW}K0-)UZ6E(Rbdh?|q~#%v>BFBj8p-pzBls+l$~aHwXSEaP;|qdYSuRiP*`
zFFjQuKTV-5F{d=OSRp4fJJpIy0R*%ZoP7M9y{#0Yjg52^^z`&}6by|lpe!Q;69_X_
zVe&+swTya`KRW9HNqH9wM!n79E~Sj@h6*M53WjEr|G7GBws*VE%AEL&Z}MEOhnrV1
zA01F<wDSX<5wQ7~>38OV3XNtq8)IPfd|+l|Wc<J+#>LXW_Q61gkEMa@gN-yVO9STz
gD?5Ic2JR0IOfHPVEDii0e3+aWg;*N-ia3G#0J&R?<^TWy

diff --git a/src/prompts/prompt_for_generation.py b/src/prompts/prompt_for_generation.py
index 6d07461..51f3e0c 100644
--- a/src/prompts/prompt_for_generation.py
+++ b/src/prompts/prompt_for_generation.py
@@ -39,6 +39,31 @@
     *   **Math:** Use functions from `tl.math` where available (e.g., `tl.math.exp`, `tl.math.sqrt`). Check function existence; avoid assuming functions like `tanh` or `log1p` exist if they don't in `tl.math`.
 8.  **Triton Version:** Assume Triton version 3.1.0 or later.
 
+**Performance Optimization Guidelines:**
+Based on analysis of high-performance kernels, follow these patterns:
+
+1. **Reduction Operations (L2 Norm, Softmax):**
+   - Use single-pass reduction when possible
+   - Leverage vectorized operations (tl.sum, tl.max) instead of loops
+   - Calculate optimal BLOCK_SIZE based on hardware limits (MAX_FUSED = 65536 // element_size)
+   - Use online algorithms to avoid multiple passes
+
+2. **Matrix Operations (Transpose, MatMul):**
+   - Use block-wise operations instead of element-wise
+   - Optimize BLOCK_SIZE for cache locality (32, 64, 128)
+   - Ensure coalesced memory access patterns
+   - Use `.trans()` for transpose operations when possible
+
+3. **Memory Access Patterns:**
+   - Prefer vectorized loads/stores over scalar operations
+   - Use appropriate masks for boundary conditions
+   - Minimize memory transactions through data reuse
+
+4. **Autotuning Parameters:**
+   - BLOCK_SIZE: [32, 64, 128] for most operations
+   - num_warps: 4-8 for compute-bound, 8-16 for memory-bound
+   - num_stages: 2 for GEMM, 1 for memory-bound kernels
+
 **FINAL VERIFICATION:**
 Before completing, verify:
 1. ALL functions defined in the code have EXACT signatures matching the required function signatures above.
diff --git a/src/prompts/prompt_for_reflection.py b/src/prompts/prompt_for_reflection.py
index fe3f936..f185670 100644
--- a/src/prompts/prompt_for_reflection.py
+++ b/src/prompts/prompt_for_reflection.py
@@ -103,30 +103,67 @@
 - generate the reflection wrapped in a code block with the tag `reflection`, e.g.
 "```markdown<your reflections>```"
 
+**Performance Analysis Framework:**
+Analyze the code against these performance patterns based on empirical evidence from high vs low performance kernels:
+
+1. **Algorithmic Efficiency:**
+   - Does it use optimal algorithms (online softmax vs naive)?
+   - Are reduction operations single-pass (avoid loops with tl.sum/tl.max)?
+   - Is there unnecessary data movement (element-wise vs block operations)?
+
+2. **Memory Efficiency:**
+   - Are memory access patterns coalesced (vectorized loads/stores)?
+   - Is shared memory utilized effectively (block sizes 32, 64, 128)?
+   - Are there redundant loads/stores (multiple passes vs single-pass)?
+
+3. **Compute Efficiency:**
+   - Are vectorized operations used instead of scalar loops?
+   - Is the compute-to-memory ratio optimized (MAX_FUSED = 65536 // element_size)?
+   - Are warp-level operations utilized (tl.dot, .trans())?
+
+4. **Specific Kernel Patterns:**
+   - **Reduction kernels:** Use single-pass with tl.sum/tl.max, avoid loops
+   - **Transpose kernels:** Use .trans() for block operations, not element-wise
+   - **MatMul kernels:** Optimize BLOCK_M/N/K for cache locality (64, 128)
+   - **Flash kernels:** Use online algorithms, vectorized exp operations
+
+5. **Parameter Optimization:**
+   - Are BLOCK_SIZE parameters optimal (32, 64, 128 proven effective)?
+   - Are num_warps/num_stages tuned (4-8 for compute, 8-16 for memory)?
+   - Is grid configuration efficient (avoid complex GROUP_SIZE_M)?
+
+Common Performance Anti-patterns to Avoid:
+1. Two-pass reduction when single-pass is possible
+2. Element-wise operations instead of block operations
+3. Small BLOCK_SIZE (16) when larger (32, 64) is better
+4. Complex grid configurations when simple ones suffice
+5. Scalar loops instead of vectorized operations
+
 Maximize performance by exploring the following:
 i. Autotuning key parameters BLOCK_SIZE, num_stages, num_warps. 
 ii. Better algorithmic implementation (e.g., naive softmax vs online softmax vs fused softmax), better memory access patterns and numerical stability. 
 iii. exploring all possible operator fusion strategies within the kernel while adhering to resource constraints.
+
 Primary Autotuning Fields (Mandatory)
 1. BLOCK_M, BLOCK_N, BLOCK_K
    * Tile sizes for GEMM or other tensor contractions.
    * Larger blocks improve compute density, but reduce grid-level parallelism.
-   * Explore wide range of values like:
-     * BLOCK: [32, ..., 128, ..., 2048, ...] 
+   * Explore proven effective ranges: [32, 64, 128] based on empirical evidence
    * Adjust based on memory reuse and L2 cache locality.
 2. num_stages=n
    * Controls pipeline depth for kernel execution.
    * Rules for setting this:
-     * 1 if no GEMM.
-     * 2 if a single GEMM (e.g., GEMM + ReLU).
-     * 1 if two GEMMs are fused (e.g., Flash Attention).
+     * 1 if no GEMM or memory-bound
+     * 2 if a single GEMM (e.g., GEMM + ReLU)
+     * 1 if two GEMMs are fused (e.g., Flash Attention)
    * Optimize for latency and execution overlap.
 3. num_warps
     * Controls number of warps (groups of 64 threads) to launch per block.
     * If it is too low then underutilization -> kernel runs slow.
     * If it is too high then register spill happens and shared memory is overused -> kernel runs slow.
-    * You must choose a sweet spot by trying out integer range of 1 to 16.
+    * You must choose a sweet spot by trying out integer range of 4 to 8 for compute-bound, 8 to 16 for memory-bound.
     * You MUST NOT try the range beyond 16, it is NOT VALID. 
+
 Examples of Autotuning Setup
 Here's how Triton kernels should be decorated to allow autotuning:
     * key argument indicates the variables that change and trigger autotune to re-run. This is a must argument and you must not miss this.
@@ -173,30 +210,67 @@ def grid(args: dict[str, Any]) -> tuple[int]:
 - generate the reflection wrapped in a code block with the tag `reflection`, e.g.
 "```markdown<your reflections>```"
 
+**Performance Analysis Framework:**
+Analyze the code against these performance patterns based on empirical evidence from high vs low performance kernels:
+
+1. **Algorithmic Efficiency:**
+   - Does it use optimal algorithms (online softmax vs naive)?
+   - Are reduction operations single-pass (avoid loops with tl.sum/tl.max)?
+   - Is there unnecessary data movement (element-wise vs block operations)?
+
+2. **Memory Efficiency:**
+   - Are memory access patterns coalesced (vectorized loads/stores)?
+   - Is shared memory utilized effectively (block sizes 32, 64, 128)?
+   - Are there redundant loads/stores (multiple passes vs single-pass)?
+
+3. **Compute Efficiency:**
+   - Are vectorized operations used instead of scalar loops?
+   - Is the compute-to-memory ratio optimized (MAX_FUSED = 65536 // element_size)?
+   - Are warp-level operations utilized (tl.dot, .trans())?
+
+4. **Specific Kernel Patterns:**
+   - **Reduction kernels:** Use single-pass with tl.sum/tl.max, avoid loops
+   - **Transpose kernels:** Use .trans() for block operations, not element-wise
+   - **MatMul kernels:** Optimize BLOCK_M/N/K for cache locality (64, 128)
+   - **Flash kernels:** Use online algorithms, vectorized exp operations
+
+5. **Parameter Optimization:**
+   - Are BLOCK_SIZE parameters optimal (32, 64, 128 proven effective)?
+   - Are num_warps/num_stages tuned (4-8 for compute, 8-16 for memory)?
+   - Is grid configuration efficient (avoid complex GROUP_SIZE_M)?
+
+Common Performance Anti-patterns to Avoid:
+1. Two-pass reduction when single-pass is possible
+2. Element-wise operations instead of block operations
+3. Small BLOCK_SIZE (16) when larger (32, 64) is better
+4. Complex grid configurations when simple ones suffice
+5. Scalar loops instead of vectorized operations
+
 Maximize performance by exploring the following:
 i. Autotuning key parameters BLOCK_SIZE, num_stages, num_warps. 
 ii. Better algorithmic implementation (e.g., naive softmax vs online softmax vs fused softmax), better memory access patterns and numerical stability. 
 iii. exploring all possible operator fusion strategies within the kernel while adhering to resource constraints.
+
 Primary Autotuning Fields (Mandatory)
 1. BLOCK_M, BLOCK_N, BLOCK_K
    * Tile sizes for GEMM or other tensor contractions.
    * Larger blocks improve compute density, but reduce grid-level parallelism.
-   * Explore wide range of values like:
-     * BLOCK: [32, ..., 128, ..., 2048, ...] 
+   * Explore proven effective ranges: [32, 64, 128] based on empirical evidence
    * Adjust based on memory reuse and L2 cache locality.
 2. num_stages=n
    * Controls pipeline depth for kernel execution.
    * Rules for setting this:
-     * 1 if no GEMM.
-     * 2 if a single GEMM (e.g., GEMM + ReLU).
-     * 1 if two GEMMs are fused (e.g., Flash Attention).
+     * 1 if no GEMM or memory-bound
+     * 2 if a single GEMM (e.g., GEMM + ReLU)
+     * 1 if two GEMMs are fused (e.g., Flash Attention)
    * Optimize for latency and execution overlap.
 3. num_warps
     * Controls number of warps (groups of 64 threads) to launch per block.
     * If it is too low then underutilization -> kernel runs slow.
     * If it is too high then register spill happens and shared memory is overused -> kernel runs slow.
-    * You must choose a sweet spot by trying out integer range of 1 to 16.
+    * You must choose a sweet spot by trying out integer range of 4 to 8 for compute-bound, 8 to 16 for memory-bound.
     * You MUST NOT try the range beyond 16, it is NOT VALID. 
+
 Examples of Autotuning Setup
 Here's how Triton kernels should be decorated to allow autotuning:
     * key argument indicates the variables that change and trigger autotune to re-run. This is a must argument and you must not miss this.
@@ -242,30 +316,67 @@ def grid(args: dict[str, Any]) -> tuple[int]:
 - generate the reflection wrapped in a code block with the tag `reflection`, e.g.
 "```markdown<your reflections>```"
 
+**Performance Analysis Framework:**
+Analyze the code against these performance patterns based on empirical evidence from high vs low performance kernels:
+
+1. **Algorithmic Efficiency:**
+   - Does it use optimal algorithms (online softmax vs naive)?
+   - Are reduction operations single-pass (avoid loops with tl.sum/tl.max)?
+   - Is there unnecessary data movement (element-wise vs block operations)?
+
+2. **Memory Efficiency:**
+   - Are memory access patterns coalesced (vectorized loads/stores)?
+   - Is shared memory utilized effectively (block sizes 32, 64, 128)?
+   - Are there redundant loads/stores (multiple passes vs single-pass)?
+
+3. **Compute Efficiency:**
+   - Are vectorized operations used instead of scalar loops?
+   - Is the compute-to-memory ratio optimized (MAX_FUSED = 65536 // element_size)?
+   - Are warp-level operations utilized (tl.dot, .trans())?
+
+4. **Specific Kernel Patterns:**
+   - **Reduction kernels:** Use single-pass with tl.sum/tl.max, avoid loops
+   - **Transpose kernels:** Use .trans() for block operations, not element-wise
+   - **MatMul kernels:** Optimize BLOCK_M/N/K for cache locality (64, 128)
+   - **Flash kernels:** Use online algorithms, vectorized exp operations
+
+5. **Parameter Optimization:**
+   - Are BLOCK_SIZE parameters optimal (32, 64, 128 proven effective)?
+   - Are num_warps/num_stages tuned (4-8 for compute, 8-16 for memory)?
+   - Is grid configuration efficient (avoid complex GROUP_SIZE_M)?
+
+Common Performance Anti-patterns to Avoid:
+1. Two-pass reduction when single-pass is possible
+2. Element-wise operations instead of block operations
+3. Small BLOCK_SIZE (16) when larger (32, 64) is better
+4. Complex grid configurations when simple ones suffice
+5. Scalar loops instead of vectorized operations
+
 Maximize performance by exploring the following:
 i. Autotuning key parameters BLOCK_SIZE, num_stages, num_warps. 
 ii. Better algorithmic implementation (e.g., naive softmax vs online softmax vs fused softmax), better memory access patterns and numerical stability. 
 iii. exploring all possible operator fusion strategies within the kernel while adhering to resource constraints.
+
 Primary Autotuning Fields (Mandatory)
 1. BLOCK_M, BLOCK_N, BLOCK_K
    * Tile sizes for GEMM or other tensor contractions.
    * Larger blocks improve compute density, but reduce grid-level parallelism.
-   * Explore wide range of values like:
-     * BLOCK: [32, ..., 128, ..., 2048, ...] 
+   * Explore proven effective ranges: [32, 64, 128] based on empirical evidence
    * Adjust based on memory reuse and L2 cache locality.
 2. num_stages=n
    * Controls pipeline depth for kernel execution.
    * Rules for setting this:
-     * 1 if no GEMM.
-     * 2 if a single GEMM (e.g., GEMM + ReLU).
-     * 1 if two GEMMs are fused (e.g., Flash Attention).
+     * 1 if no GEMM or memory-bound
+     * 2 if a single GEMM (e.g., GEMM + ReLU)
+     * 1 if two GEMMs are fused (e.g., Flash Attention)
    * Optimize for latency and execution overlap.
 3. num_warps
     * Controls number of warps (groups of 64 threads) to launch per block.
     * If it is too low then underutilization -> kernel runs slow.
     * If it is too high then register spill happens and shared memory is overused -> kernel runs slow.
-    * You must choose a sweet spot by trying out integer range of 1 to 16.
+    * You must choose a sweet spot by trying out integer range of 4 to 8 for compute-bound, 8 to 16 for memory-bound.
     * You MUST NOT try the range beyond 16, it is NOT VALID. 
+
 Examples of Autotuning Setup
 Here's how Triton kernels should be decorated to allow autotuning:
     * key argument indicates the variables that change and trigger autotune to re-run. This is a must argument and you must not miss this.
diff --git a/src/retrievers/__pycache__/retriever.cpython-312.pyc b/src/retrievers/__pycache__/retriever.cpython-312.pyc
index dc463e336802936d3187aecc27bdae9c5fdf2a5e..c04971bccd2cc1a87e4005926688051e28408f5f 100644
GIT binary patch
delta 20
acmbOwHA{;7G%qg~0}w2WU$v2&pBDf&Dg^2P

delta 20
acmbOwHA{;7G%qg~0}vF%&DqG!&kF!FWCW!E

diff --git a/src/soso/flash_decode2_phi.py b/src/soso/flash_decode2_phi.py
new file mode 100644
index 0000000..e0157ed
--- /dev/null
+++ b/src/soso/flash_decode2_phi.py
@@ -0,0 +1,145 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(B_Seqlen, Mid_O, Mid_O_LogExpSum, Out, stride_mid_ob, stride_mid_oh, stride_mid_os, stride_mid_od, stride_mid_lse_b, stride_mid_lse_h, stride_mid_lse_s, stride_out_b, stride_out_h, stride_out_d, BLOCK_SEQ: tl.constexpr, BLOCK_DMODEL: tl.constexpr):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+    cur_seq_len = tl.load(B_Seqlen + cur_batch)
+    block_n_size = tl.cdiv(cur_seq_len, BLOCK_SEQ)
+    offsets_d = tl.arange(0, BLOCK_DMODEL)
+    sum_exp = 0.0
+    max_logic = float('-inf')
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    for block_id in range(0, block_n_size):
+        offs_mid_o = cur_batch * stride_mid_ob + cur_head * stride_mid_oh + block_id * stride_mid_os + offsets_d * stride_mid_od
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+        offs_lse = cur_batch * stride_mid_lse_b + cur_head * stride_mid_lse_h + block_id * stride_mid_lse_s
+        tlogic = tl.load(Mid_O_LogExpSum + offs_lse).to(tl.float32)
+        new_max = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max)
+        acc = acc * scale
+        sum_exp = sum_exp * scale
+        exp_logic = tl.exp(tlogic - new_max)
+        acc += tv * exp_logic
+        sum_exp += exp_logic
+        max_logic = new_max
+    offs_out = cur_batch * stride_out_b + cur_head * stride_out_h + offsets_d * stride_out_d
+    tl.store(Out + offs_out, (acc / sum_exp).to(Out.dtype.element_ty))
+
+def flash_decode_stage2(Mid_O: torch.Tensor, Mid_O_LogExpSum: torch.Tensor, B_Seqlen: torch.Tensor, Out: torch.Tensor, BLOCK_SEQ: int):
+    batch, num_heads = (Out.shape[0], Out.shape[1])
+    BLOCK_DMODEL = Out.shape[-1]
+    grid = (batch, num_heads)
+    _fwd_kernel_flash_decode_stage2[grid](B_Seqlen, Mid_O, Mid_O_LogExpSum, Out, Mid_O.stride(0), Mid_O.stride(1), Mid_O.stride(2), Mid_O.stride(3), Mid_O_LogExpSum.stride(0), Mid_O_LogExpSum.stride(1), Mid_O_LogExpSum.stride(2), Out.stride(0), Out.stride(1), Out.stride(2), BLOCK_SEQ=BLOCK_SEQ, BLOCK_DMODEL=BLOCK_DMODEL, num_warps=4, num_stages=2)
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/soso/l2_norm_bwd.py b/src/soso/l2_norm_bwd.py
new file mode 100644
index 0000000..9b96b6e
--- /dev/null
+++ b/src/soso/l2_norm_bwd.py
@@ -0,0 +1,112 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(X, DY, DX, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DX += row * stride_x_row
+    DY += row * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    x = tl.load(X + cols, mask=cols < N, other=0.0).to(tl.float32)
+    x = tl.where(cols < N, x, 0.0)
+    var = tl.sum(x * x)
+    rstd = 1 / tl.sqrt(var + eps)
+    mask = cols < N
+    dy = tl.load(DY + cols, mask=cols < N, other=0.0).to(tl.float32)
+    dy = tl.where(cols < N, dy, 0.0)
+    gy = tl.sum(dy * x)
+    dx = dy * rstd - gy * (1 / (var + eps)) * rstd * x
+    tl.store(DX + cols, dx, mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float=1e-05) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+    M, N = x.shape
+    dx = torch.empty_like(x)
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This l2 norm doesn't support feature dim >= 64KB.")
+    _l2_norm_bwd_kernel[M,](x, dy, dx, x.stride(0), N, eps, BLOCK_N=BLOCK_N)
+    return dx.reshape(x_shape_og)
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/soso/l2_norm_triton1.py b/src/soso/l2_norm_triton1.py
new file mode 100644
index 0000000..93b6007
--- /dev/null
+++ b/src/soso/l2_norm_triton1.py
@@ -0,0 +1,100 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    row_start = pid_m * stride_x_row
+    _sum = tl.zeros([BLOCK_N], dtype=tl.float32)
+    for off in range(0, N, BLOCK_N):
+        cols = off + tl.arange(0, BLOCK_N)
+        mask = cols < N
+        x_ptrs = X + row_start + cols
+        x_vals = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+        _sum += x_vals * x_vals
+    var = tl.sum(_sum, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    for off in range(0, N, BLOCK_N):
+        cols = off + tl.arange(0, BLOCK_N)
+        mask = cols < N
+        x_ptrs = X + row_start + cols
+        y_ptrs = Y + row_start + cols
+        x_vals = tl.load(x_ptrs, mask=mask, other=0.0)
+        y_vals = x_vals * rstd
+        tl.store(y_ptrs, y_vals, mask=mask)
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float=1e-06):
+    x = x.contiguous()
+    shape = x.shape
+    x = x.view(-1, shape[-1])
+    M, N = x.shape
+    y = torch.empty_like(x)
+    BLOCK_N = min(triton.next_power_of_2(N), 1 << 16)
+    assert N <= BLOCK_N, 'Feature dimension N must not exceed BLOCK_N (64KB limit)'
+    _l2_norm_fwd_1pass_kernel[M,](x, y, stride_x_row=x.stride(0), N=N, eps=eps, BLOCK_N=BLOCK_N)
+    return y.view(*shape)
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/soso/matrix_transpose.py b/src/soso/matrix_transpose.py
new file mode 100644
index 0000000..974f7f2
--- /dev/null
+++ b/src/soso/matrix_transpose.py
@@ -0,0 +1,74 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD, BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)[:, None]
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)[None, :]
+    mask = (offs_m < SIZE_M) & (offs_n < D_HEAD)
+    m_ptrs = M + offs_m * matrix_stridex + offs_n * matrix_stridey
+    out_ptrs = Out + offs_n * out_stridex + offs_m * out_stridey
+    m_val = tl.load(m_ptrs, mask=mask)
+    tl.store(out_ptrs, m_val, mask=mask)
+
+def wrapper(size_m: int, d_head: int):
+    SIZE_M = size_m
+    D_HEAD = d_head
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+    BLOCK_M = 16
+    BLOCK_N = 16
+    grid = (triton.cdiv(SIZE_M, BLOCK_M), triton.cdiv(D_HEAD, BLOCK_N))
+    kernel[grid](matrix, out, matrix.stride(0), matrix.stride(1), out.stride(0), out.stride(1), SIZE_M, D_HEAD, BLOCK_M=BLOCK_M, BLOCK_N=BLOCK_N)
+    return out
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/soso/matrix_vector_multip.py b/src/soso/matrix_vector_multip.py
new file mode 100644
index 0000000..bf6fdcb
--- /dev/null
+++ b/src/soso/matrix_vector_multip.py
@@ -0,0 +1,74 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def mv_kernel(A, B, C, M, N, stride_am, stride_an, stride_b, stride_c, BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = tl.arange(0, BLOCK_N)
+    acc = tl.zeros([BLOCK_M], dtype=tl.float32)
+    for k in range(0, N, BLOCK_N):
+        rn_k = k + rn
+        mask_a = (rm[:, None] < M) & (rn_k[None, :] < N)
+        mask_b = rn_k < N
+        a_ptrs = A + (rm[:, None] * stride_am + rn_k[None, :] * stride_an)
+        b_ptrs = B + rn_k * stride_b
+        a_block = tl.load(a_ptrs, mask=mask_a, other=0.0).to(tl.float32)
+        b_block = tl.load(b_ptrs, mask=mask_b, other=0.0).to(tl.float32)
+        acc += tl.sum(a_block * b_block[None, :], axis=1)
+    mask_c = rm < M
+    c_ptrs = C + rm * stride_c
+    tl.store(c_ptrs, acc, mask=mask_c)
+
+def mv(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.dim() == 2
+    assert b.dim() == 1
+    assert a.size(1) == b.size(0)
+    M, N = a.shape
+    C = torch.empty(M, dtype=a.dtype, device=a.device)
+    BLOCK_M = 64
+    BLOCK_N = 64
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']),)
+    mv_kernel[grid](a, b, C, M, N, a.stride(0), a.stride(1), b.stride(0), C.stride(0), BLOCK_M=BLOCK_M, BLOCK_N=BLOCK_N)
+    return C
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/soso/rotary_transform.py b/src/soso/rotary_transform.py
new file mode 100644
index 0000000..4e56347
--- /dev/null
+++ b/src/soso/rotary_transform.py
@@ -0,0 +1,194 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def rotary_kernel(OUT, X, COS, SIN, CU_SEQLENS, SEQLEN_OFFSETS, seqlen, nheads, rotary_dim, seqlen_ro, CACHE_KEY_SEQLEN, stride_out_batch, stride_out_seqlen, stride_out_nheads, stride_out_headdim, stride_x_batch, stride_x_seqlen, stride_x_nheads, stride_x_headdim, BLOCK_K: tl.constexpr, IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr, IS_VARLEN: tl.constexpr, INTERLEAVED: tl.constexpr, CONJUGATE: tl.constexpr, BLOCK_M: tl.constexpr):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+    if not IS_VARLEN:
+        current_batch_offset = pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        X_ptr = X + current_batch_offset
+        OUT_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+        seq_len = seqlen
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seq_len = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        X_ptr = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        OUT_ptr = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+    if pid_m * BLOCK_M >= seq_len:
+        return
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rk = tl.arange(0, BLOCK_K)
+    rk_half = rk % (rotary_dim // 2)
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    rotary_half = rotary_dim // 2
+    if not INTERLEAVED:
+        k0 = rk_half
+        k1 = k0 + rotary_half
+        mask_m = rm < seq_len
+        mask_m_cs = rm_cs < seqlen_ro
+        offset0 = rm[:, None] * stride_x_seqlen + k0[None, :] * stride_x_headdim
+        x0 = tl.load(X_ptr + offset0, mask=mask_m[:, None] & (k0[None, :] < rotary_half)).to(tl.float32)
+        cos0 = tl.load(COS + rm_cs[:, None] * rotary_half + k0[None, :], mask=mask_m_cs[:, None] & (k0[None, :] < rotary_half), other=1.0).to(tl.float32)
+        sin0 = tl.load(SIN + rm_cs[:, None] * rotary_half + k0[None, :], mask=mask_m_cs[:, None] & (k0[None, :] < rotary_half), other=0.0).to(tl.float32)
+        offset1 = rm[:, None] * stride_x_seqlen + k1[None, :] * stride_x_headdim
+        x1 = tl.load(X_ptr + offset1, mask=mask_m[:, None] & (k1[None, :] < rotary_dim)).to(tl.float32)
+        if CONJUGATE:
+            sin0 = -sin0
+        o0 = x0 * cos0 - x1 * sin0
+        o1 = x0 * sin0 + x1 * cos0
+        tl.store(OUT_ptr + offset0, o0, mask=mask_m[:, None] & (k0[None, :] < rotary_half))
+        tl.store(OUT_ptr + offset1, o1, mask=mask_m[:, None] & (k1[None, :] < rotary_dim))
+    else:
+        rk_half = rk // 2
+        mask_m = rm < seq_len
+        mask_m_cs = rm_cs < seqlen_ro
+        x_offsets = rm[:, None] * stride_x_seqlen + rk[None, :] * stride_out_headdim
+        cos_sin_offsets = rm_cs[:, None] * rotary_half + rk_half[None, :]
+        x = tl.load(X_ptr + x_offsets, mask=mask_m[:, None] & (rk[None, :] < rotary_dim)).to(tl.float32)
+        cos = tl.load(COS + cos_sin_offsets, mask=mask_m_cs[:, None] & (rk_half[None, :] < rotary_half), other=1.0).to(tl.float32)
+        sin = tl.load(SIN + cos_sin_offsets, mask=mask_m_cs[:, None] & (rk_half[None, :] < rotary_half), other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        x0 = tl.where(rk[None, :] % 2 == 0, x, 0)
+        x1 = tl.where(rk[None, :] % 2 == 1, x, 0)
+        out = x0 * cos + x1 * sin
+        tl.store(OUT_ptr + x_offsets, out, mask=mask_m[:, None] & (rk[None, :] < rotary_dim))
+from typing import Union, Optional
+
+def apply_rotary(x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, seqlen_offsets: Union[int, torch.Tensor]=0, cu_seqlens: Optional[torch.Tensor]=None, max_seqlen: Optional[int]=None, interleaved: bool=False, inplace: bool=False, conjugate: bool=False) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim
+    assert headdim <= 256
+    if not isinstance(seqlen_offsets, torch.Tensor):
+        assert isinstance(seqlen_offsets, int) and seqlen_offsets + seqlen <= seqlen_ro
+    else:
+        assert seqlen_offsets.shape == (batch,)
+        seqlen_offsets = seqlen_offsets.to(torch.int32)
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        seqlen_offsets = seqlen_offsets.contiguous()
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and (not inplace):
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+    BLOCK_K = max(32, triton.next_power_of_2(rotary_dim))
+    BLOCK_M = 4 if interleaved else 8 if rotary_dim <= 64 else 4
+    grid = lambda META: (triton.cdiv(seqlen, META['BLOCK_M']), batch, nheads)
+    with torch.cuda.device(x.device.type):
+        rotary_kernel[grid](output, x, cos, sin, cu_seqlens, seqlen_offsets, seqlen, nheads, rotary_dim, seqlen_ro, seqlen // 128, output.stride(0) if not is_varlen else 0, output.stride(-3), output.stride(-2), output.stride(-1), x.stride(0) if not is_varlen else 0, x.stride(-3), x.stride(-2), x.stride(-1), BLOCK_K=BLOCK_K, IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor), IS_VARLEN=is_varlen, INTERLEAVED=interleaved, CONJUGATE=conjugate, BLOCK_M=BLOCK_M)
+    return output
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/soso/sin_kernel.py b/src/soso/sin_kernel.py
new file mode 100644
index 0000000..020ee44
--- /dev/null
+++ b/src/soso/sin_kernel.py
@@ -0,0 +1,86 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel_function(x_ptr, output_ptr, n_elements, BLOCK_SIZE: tl.constexpr):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+def call_kernel(x: torch.Tensor, BLOCK_SIZE: int=64):
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
+    kernel_function[grid](x, output, n_elements, BLOCK_SIZE=BLOCK_SIZE)
+    return output
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/soso/triton_matmul.py b/src/soso/triton_matmul.py
new file mode 100644
index 0000000..a3aa0a9
--- /dev/null
+++ b/src/soso/triton_matmul.py
@@ -0,0 +1,99 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr, M, N, K, stride_am, stride_ak, stride_bk, stride_bn, stride_cm, stride_cn, BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr, GROUP_SIZE_M: tl.constexpr):
+    pid = tl.program_id(axis=0)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + pid % group_size_m
+    pid_n = pid % num_pid_in_group // group_size_m
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        mask_a = (offs_am[:, None] < M) & ((BLOCK_SIZE_K * k + offs_k)[None, :] < K)
+        mask_b = ((BLOCK_SIZE_K * k + offs_k)[:, None] < K) & (offs_bn[None, :] < N)
+        a = tl.load(a_ptrs, mask=mask_a, other=0.0)
+        b = tl.load(b_ptrs, mask=mask_b, other=0.0)
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator, mask=mask)
+
+def matmul(a: torch.Tensor, b: torch.Tensor, activation=None):
+    assert a.dtype == b.dtype
+    assert a.dim() == 2 and b.dim() == 2, 'only 2-D tensors supported'
+    M, K = a.shape
+    K2, N = b.shape
+    assert K == K2
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+    if a.dtype == torch.float16:
+        BLOCK_SIZE_M = 64
+        BLOCK_SIZE_N = 64
+        BLOCK_SIZE_K = 32
+        num_stages = 2
+        num_warps = 4
+    elif a.dtype == torch.float32:
+        BLOCK_SIZE_M = 64
+        BLOCK_SIZE_N = 64
+        BLOCK_SIZE_K = 32
+        num_stages = 4
+        num_warps = 4
+    else:
+        raise RuntimeError('Unsupported dtype for AMD Triton matmul')
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),)
+    matmul_kernel[grid](a, b, c, M, N, K, a.stride(0), a.stride(1), b.stride(0), b.stride(1), c.stride(0), c.stride(1), BLOCK_SIZE_M=BLOCK_SIZE_M, BLOCK_SIZE_N=BLOCK_SIZE_N, BLOCK_SIZE_K=BLOCK_SIZE_K, GROUP_SIZE_M=8, num_stages=num_stages, num_warps=num_warps)
+    return c
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/embedding_triton_kernel.py b/src/temp/embedding_triton_kernel.py
new file mode 100644
index 0000000..555debb
--- /dev/null
+++ b/src/temp/embedding_triton_kernel.py
@@ -0,0 +1,144 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(weight, out, seq_idx, stride_wm, stride_wd, stride_om, stride_od, stride_s,
+                     total_tokens, d_model, seq_len,
+                     BLOCK_DMODEL: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr):
+    pid_m = tl.program_id(0)  # sequence index within batch
+    pid_n = tl.program_id(1)  # token index within sequence (BLOCK_N stride)
+    pid_d = tl.program_id(2)  # feature dimension (BLOCK_DMODEL stride)
+    
+    # global sequence offset
+    offs_seq_m = pid_m * seq_len
+    offs_seq_n0 = pid_n * BLOCK_N
+    
+    # collect BLOCK_N embeddings per step
+    for nstart in range(0, BLOCK_N, BLOCK_NN):
+        offs_n = nstart + tl.arange(0, BLOCK_NN)      # [BLOCK_NN]
+        mask_n = offs_n < BLOCK_N                      # [BLOCK_NN]
+        global_n = offs_seq_n0 + offs_n                # [BLOCK_NN]
+        mask_seq = global_n < seq_len                  # [BLOCK_NN]
+        
+        # read token ids (int32)
+        offs_ids = seq_idx + offs_seq_m + global_n     # [BLOCK_NN]
+        token_ids = tl.load(offs_ids, mask=mask_n & mask_seq, other=-1)   # [BLOCK_NN]
+        
+        # compute offsets in weight tensor
+        # flatten token ids to compute global offsets
+        offs_weight = token_ids[:, None] * stride_wm + (pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL))[None, :] * stride_wd
+        # load BLOCK_NN * BLOCK_DMODEL elements
+        local_weight = tl.load(weight + offs_weight, mask=(token_ids[:, None] >= 0) & (pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL))[None, :] < d_model, other=0.0)  # [BLOCK_NN, BLOCK_DMODEL]
+        
+        # store to output
+        offs_out = (offs_seq_m + global_n)[:, None] * stride_om + (pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL))[None, :] * stride_od
+        tl.store(out + offs_out, local_weight, mask=(global_n[:, None] < seq_len) & ((pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL))[None, :] < d_model))
+
+def embedding(weight: torch.Tensor, out: torch.Tensor, seq_idx: torch.Tensor):
+    assert weight.ndim == 2, "weight must be 2D: [num_embeddings, embedding_dim]"
+    assert seq_idx.ndim == 2, "seq_idx must be 2D: [batch_size, seq_len]"
+    assert out.ndim == 3, "out must be 3D: [batch_size, seq_len, embedding_dim]"
+    assert weight.dtype == out.dtype, "dtype mismatch between weight and out"
+    num_embeddings, d_model = weight.shape
+    batch_size, seq_len = seq_idx.shape
+    assert out.shape == (batch_size, seq_len, d_model), "out shape mismatch"
+    assert seq_idx.dtype == torch.int64 or seq_idx.dtype == torch.int32, "seq_idx must be long/int32"
+    
+    stride_wm = weight.stride(0)
+    stride_wd = weight.stride(1)
+    stride_om = out.stride(0)
+    stride_od = out.stride(2)
+    total_tokens = batch_size * seq_len
+    
+    BLOCK_DMODEL = triton.next_power_of_2(d_model)
+    BLOCK_N = 64
+    BLOCK_NN = 8
+    
+    grid = (
+        batch_size,
+        triton.cdiv(seq_len, BLOCK_N),
+        triton.cdiv(BLOCK_DMODEL, BLOCK_DMODEL),
+    )
+    
+    embedding_kernel[grid](
+        weight,
+        out,
+        seq_idx,
+        stride_wm,
+        stride_wd,
+        stride_om,
+        stride_od,
+        seq_idx.stride(0),
+        total_tokens,
+        d_model,
+        seq_len,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+    )
+    return out
+
+##################################################################################################################################################
+
+
+
+import torch
+
+def test_embedding():
+    # 参数定义
+    vocab_size = 1000         # 词汇表大小
+    embedding_dim = 512       # 嵌入维度
+    sequence_length = 128     # 输入序列长度
+    vob_start_id = 10         # 词汇表起始 ID
+    vob_end_id = 1000         # 词汇表结束 ID
+
+    # 创建测试输入张量
+    input_ids = torch.randint(
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+    )
+    weight = torch.randn(
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+    )
+    out = torch.zeros(
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+    )
+
+    # 调用嵌入函数
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    # 保存结果
+    results = {}
+    results['test_case_1'] = out.clone()
+
+    # 测试不同的输入
+    input_ids = torch.randint(
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+    )
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+    results['test_case_2'] = out.clone()
+
+    # 测试不同的词汇表范围
+    vob_start_id = 0
+    vob_end_id = 500
+    input_ids = torch.randint(
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+    )
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+    results['test_case_3'] = out.clone()
+
+    # 测试不同的嵌入维度
+    embedding_dim = 256
+    weight = torch.randn(
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+    )
+    out = torch.zeros(
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+    )
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+    results['test_case_4'] = out.clone()
+
+    return results
+
+result_gold = test_embedding()
diff --git a/src/temp/flash_decode2_phi.py b/src/temp/flash_decode2_phi.py
new file mode 100644
index 0000000..1e798b3
--- /dev/null
+++ b/src/temp/flash_decode2_phi.py
@@ -0,0 +1,141 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_leb,
+    stride_mid_leh,
+    stride_mid_les,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seqlen = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    for block_id in range(0, block_n_size):
+        tv = tl.load(Mid_O + cur_batch * stride_mid_ob
+                     + cur_head * stride_mid_oh
+                     + block_id * stride_mid_os
+                     + offs_d * stride_mid_od)
+        tlogic = tl.load(Mid_O_LogExpSum + cur_batch * stride_mid_leb
+                         + cur_head * stride_mid_leh
+                         + block_id * stride_mid_les)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max)
+        acc = acc * scale
+        sum_exp *= scale
+
+        exp_val = tl.exp(tlogic - new_max)
+        acc += tv * exp_val
+        sum_exp += exp_val
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    out_ptrs = Out + cur_batch * stride_out_b + cur_head * stride_out_h + offs_d * stride_out_d
+    tl.store(out_ptrs, acc.to(Out.dtype.element_ty))
+
+def flash_decode_stage2(B_Seqlen, Mid_O, Mid_O_LogExpSum, Out, BLOCK_SEQ: int, BLOCK_DMODEL: int):
+    batch = B_Seqlen.shape[0]
+    head_num = Mid_O.shape[1]
+
+    grid = (batch, head_num)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ,
+        BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2
+    )
+    return Out
+
+##################################################################################################################################################
+
+
+
+import torch
+
+# Define the test function
+def test_flash_decode_stage2():
+    # Define the parameters for different test cases
+    batch_size = 2
+    head_num = 4
+    seq_block_num = 3
+    head_dim = 64
+    block_seq = 16
+
+    test_cases = {
+        "test_case_1": {
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+            "block_seq": block_seq
+        },
+        "test_case_2": {
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+            "block_seq": block_seq + 1  # Different block size
+        },
+        "test_case_3": {
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+            "block_seq": block_seq // 2  # Different block size
+        },
+        "test_case_4": {
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+            "block_seq": block_seq * 2  # Different block size
+        }
+    }
+
+    # Execute the function for all test cases
+    results = {}
+    for key, test_case in test_cases.items():
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+        results[key] = test_case["Out"]
+
+    return results
+
+# Run the test
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_155036.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_155036.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d5464ade1edc9bd33256605098978ba9e7fa71eb
GIT binary patch
literal 5348
zcmdTHTWs6b^-`oLN+k8L9+qP}jkBSRnxt-QCu`EQiPJPm6UW)Gwm@BXf-KUOWLa`Z
z+If^3*rLNMtbmmLMCl5|Ee6zC0>s_V(xE`JVZes%$BYX^;5tA+^HKjPwXp&F+PTy-
znmq6Mu?z6tbI<FZbMN6f_x^$B9SGX@-~L(bD>p)4;z_M>RbZVa5W0#4BoIk7RvC#g
z!kk-X$T5mQB9Sol)I=+zU=gWAO-mC=AUDBN?eUYeV10+WS=BIR6KD}7z}nU(*fzm4
zqFu1V=h%eK3dAHQaPLrKj=GopJ7|oxAd#)F%UvQu&NaN~s9`%ca_)sQ;ZcLB0;2|3
zfsUU&cl^bXsI$p9yfq|z>m2k~kpkOUX$eaWYK#JLvr5l6x8StYIbEtt<u6-Nvu>)P
zvjz!-%HOQ6c^Qxyx9V2uX~1MWO>5CL{>BKBl*--2UO+pJ^28h4L8?RTXp(EcBKOFO
zUe&8o=88Vmsgl@c)oa?~Z_>n6)@kllr1~+R>bphOG$z<)jtZ>QQSCynzGH!=)tb+$
zDy;@o`}8=h7Em47+RJbz7+2eYOrRY{rc(_-0HGgP1T<;s0$r-r^w5p57+=Af{sx;Y
zXy-4X1}pxyX!Nw`!j^SD%7d+K>{6x+cG_0i=|}lg24l@t+F7`*$-*|jn`%+FnX+A~
zuSIVg8^NAx^bim|@AgsX5(-hH5)Q{T9PuH-pk^ZSbjWU4l%(O9mC{pEWF{OJ3_2o3
zQd6Q~tqfE$9T9*jZCK+e<-m|(y$};6Aj?Wx5<}gFT}e-iDUg&6`hpmriYW$}o>L4)
zR;0Kfh9~M!vJTDHA;GX$`O*^&Fllh}>4~tcL?i{<<iImAB>*g8$0Qv65^N_j?6Ywp
zJP}c%F~f#IAwFZ!(R5M{gDcoY7;P0r$tnRxlK_6FCnseQFCiNw?i}-xBq+gTgRc^+
zPEkMthAI*~l)GX59h<kmj`v?kOVjdfBr5jDBGKuH5=*D{MyAA+(l1NVenp&_?T1;v
zI5Qy%LOeAUhAmUlsqnNYrNrb@vzNj^t|6mo*v)<W_dh*&04RpLAyr|Qc7r`QoyZ@;
z5o>5;C-Qi&@>lpmWYxVxd+7_OJ2#V^DGaYVw`(U$yf3fn{5O6&@lpJP_%gA4c=hq4
zI)79<QRKb(n9gt4PCW4XuRe3-nZj`4;!^OwcVNL*^aS4@xPI{3!Nu<^F{|DCbkDv8
zy6EXF?9x3u7wD3I`(jY{hn7z0{(%JtUU4crm5(nzsR#BfANbsP=)Utg-TB<76Q9LC
ziLE+ME|3p^Czg#B$bzZ|cQ2F63H|A#dgt)n!QXMK&Q})5VxX%qt_MO((dE<nQ_t)E
zBMXjFu=~B?f>Jnnja$5^2m6;FzvKJm`8%B-_v^vo1^x?{CwC!xp~!XQ-_W_8VBdR0
zVW?oc^4Q{mrEmV6SbE}vBf4i`dF<E3-J!cSeg7%lb85p%x*ZEtnL~V_VAr`m5dZPM
zypaD^_FN&Zb5A@Z34T`zbPm1e!N`YJ3*S>Fk=?uDKz26AWSJu8%0H=dJw?vF*`j~3
zQFh0}-N-k%4o8Kg4%~Thhr>zg!JQ8}gO)^PPD({_l-C+g3^@MRe-D51RivUsjnXu#
zL_2KMa?vuq3zWN6svRBEWb0}4HbEfVgKnHHTAETXJBc=h%hd7MmXd7}uqkOV*KL2h
zAxzs{U^_1GEln^zlPmJ5T`3v|UozGV4SUn(j$~4883wesp{iDuR+&k%VWZ-z8PM)#
zq%!rwXBWtfL!dIOYHgCiN8Zv@2FhJ^zb7pjPVv_mRL(4INX3@|l<2JC8>3*Yt+xrC
zuG5Jv<lEC5^3)dc?dc79i%O~vl~wJxY&WYH0RopMW^@fZzlLLbZ3pfUq%gBwNj8{<
z$d<Gp;tX04=i^Z*M1pc@76vFs(U^o!#;jC>0|u4C#lR}ZB0#4rsnu|$#EVLJHhn>q
z!s*E{a7BgqyqP-<x>AZl{N{fpam*k_4B}OTIBwRThFu0V1@%tm!GK3<g7hRd$zIRa
z(lMAHgik(frs=X1asK;kx6XDK=C5b2Wj<#QEt9`+eC)W#9$KLe>1Mye9xAfF+>z{&
z_r>ee*QW2Wp{3Vuhi`;`WBo1rEB4;rGb_}Y74}S#_2iz-K3nL!$96B0A2A;=OT!=X
zE7aZ<c5hX|TgSCw?L1~YoIPBdICBTH2MZoZ_2&!rdu-nd)wja-J@9tj_l9(DXsK`2
zyGI)-I^EjIqN_tYRpj`0=W}mn-z@AaBv)O#SJ*w;@duPI|FTYPD>9xU<18{P0QZ@o
z&IAjdRi?Xj=FIU~J|9_Sg23GbvpGlBk>B?t9yBySUy<o3x;u-WuA;y1&%G`yE$x9_
zjKWuMI96~Bt;e8;R}_&!f+a)1Uuc29kc2tabj_;%Z*^$^AU-M8GD$RDZ0i}X!6#U6
z(KoAkIb&_o*d`~!Rk~SQo7`t=tFDrvo3ypbbZ`y)SG3s_9FAr)vl#ZyR<oQyaRfQf
zmZ)d58ZSb%cbLiuw!?sKvg*IJYyZ%)Ev;g(Re~MP)bT$#)Bnsm*0hex5Ka5`e-;~C
zo&b-1RGIIhkaINt75r~;1fj8}0d@^XE+p1DAri7kLoksBF@{w{SqVoYGTdXECj(}t
zk8eOeY(@`C11(ZRAx7GdaW;6Iz=c_n4&WJnst75=HVJPP1ropYvM8lxGtnB>XfmA=
z;hh6-h-d`f6!FWV!Pm2~`Cf3z;`uo-6&1rtF*T*c8dovH9#75AnGb}@CC$8=*(6b(
zODeK#ht=!JzLMyjrjK>~(ks9cgHOI*$@UED2xzBEzE16IDbS^zD|!9eNXg^ZPH%9?
z6TtWN664D!7LTm#9QyRd&(3^uX64(jZdfS~t-S;+PH*n@?CT|_BY*am|90<<-aGR^
zbkf=hAhPb<?(FUo(^=@fCElL7F?06>5LsG#VZ(>4&V_g(u-LP7`Oe_y)DgJox;)y+
zQtyuIuU&iXC$DQK7tTWN{^zV{(bcL1bo)%VeA?*;ZvU1}ZLQ89)XqNOJN`Z2xmMr*
z&Rzy_UTxGYC{X=zh)K9a8?MT&;i)7%iRa+uW-v8K!e?)giMV3eqv@2ah!<z2>NVnJ
zF(s!Zcu_)t9>cnD5EyJFYQj_Lq;Lb7YgIyqIXsgV=91#`()WN5!UV~;p(~RFL41k0
zKO+85sHa5Oez@(eZDmV8;V1_Yyqd<d<K-?q+Xe@jOJ<YhZanKj@M_z0WzW~WFk2^)
zg{#O2#7=@Px_mh`tCmTCOPnV+k{u~q0WQ<X8z|c_#2}BaY{!rTIb6A(Y)_fRGY-*?
ebsnJgR|!P$Uo#1U@ID+Tk*gOTly9-7Lw^HR3SN)^

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_176773.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_176773.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2584aa3ff42abe1fc25834b93ab7df38a6ec76c5
GIT binary patch
literal 5294
zcmdT{U2GHC6~1GS?Xkz>f9H>6AuJ2=LJ2=vSOg2pZy+S0t8PIgQC;JiB>qolCJ9N$
z>QJ!)s}FIcm15MDNTo_mHjzmCQYuv{mHM!4AL`je#hOyd((+K=vI~9bQ_mgSli92x
z?Y4dBm1gFgbI(2J+&kxf=iWaui~~XYcH-mFtPi2jFjH$xm3VF?5Sl|QVu>UgsC<b5
zLgP&-^8iU8j)-e^YC|hu*2Ix<=a*%eW6kyD!z4@ICYP!M25ff3GOUF|aZeo^)|bd_
zoSmiMvA?9>QC~jnWa-<M0f#<I=WR4Vn-E9q@i?c5kn0%^rC+t3>AiCHa=2f0R)}+b
zSI(X9jk*niQb3#GdHy>SUOo{PvC`teZ*DBHRPE2Yx6m}{njXn5nG-_@@x&C8Jd$hL
zf{cF1&0b*X3CXoo^*;^WS+C@kED4ZgePE5o7C_>}U#;H{oC9;&fFUmHS1n7f5kl0(
zaXkA?ZP{G&oDCXm)sK?VbsMAxiPR!&ga|1u!Uiq2CWDna=_etn3F}FXEU`>3;eP=w
z+blIpR=jHPwPCx{u=3d!ES&}`TEAWM641PC+rkSWZPUE?Aa&3OCKe5wn!%6Mf_W^d
z@YoA$F~reouv=%7NUf}C*{ZKXPzuJ4*`>_|yqM~3jyP=P%}vi5<Jt!{YhjC$Uz<-*
z@-5qHt45$H6r%choI1~NriKXB!irO4T*#!7sfdtJEg5l?<40;1L4l0ij0quv$GH%q
zRg;)h9b<fEgpZ`cF;=xk_(*z$Q!UdRpAl5sa557S4<AxV__C^57*D~F3~z(cs)I{%
zDK0IB#VOSyfRqchsf?IOaA`0lgvUf)bxd-xkx@~jZJF^ZA#mRdC%LrhNROw&+5m9H
zhEo}qORCO^%#E-hMtBhi<iH%4W-)CSL_WrHMso6iE}cB6(p3d;bil|Q<Z+_$IIC6L
zSd0xr02LydNvb5g1l0=u@sc@kl$qgSffH44HTnu0#>(bMG^*OuRSg)Ht_-7wlMx)S
zpxX5nP%RUYBwo}>O&xzhAP8*`$BtLEe++d_X843K7Kw75qmgJLB93O#--wLBYIh2J
zv{U3#W1YZta;X~}%f`|pVOSb5lMW|1KFuZfk4=T4yC#gn!iEnXJ#zHuVdzmk8>1@f
z{6UBa<A*Q^c_gD3yO7&ElggzEr&nFC$=y#}9s^glx$=8HwKbP0SDE(ZhZMT~r)Pe4
z=_i*KA}g({yG|<fN%>rf@#ed8-;pnryiJAUig))yV1-sfKpmHRN=>bWDW$2SNCuxe
zoHHG{j(l(a<g)KU%VNu#qf0*f)Z?48&)N&^g=?#xH{?qtrlHWHFt39-cSE6BaqpbJ
zuDJKh7oUKlZPr#`7AU3Zz{<p<_tre!75#k*vwPv#%CxfgwBkG?pD%fu3%!b`L%vi7
zYt0I?v-rjlg*hT$c*3}6uH~-f2j+Jx!H$KAUql`TRz?<o@F@65{KI>XCV%^y(s`wL
zZD5TV1Z4<#cW!sSp%7Vf?2ylv9gM~|&b7_9J@$qaZ)nx=rhN7ZX}xpt*2TNm^3w{_
zK7V-O>YvH3=di|z-v=*925o2X+pwe+OU#gYs+H%&aXuXdbk~~~D6MLJ0$Y6!Nhq#&
zZ4g7aURbhLiFj$REla^z3>TZ4sN;RSP8CUXKw_AB&<_c){p!(mDvZH)oq8~An%J;i
zJKPwes}=gHe^TBr>MIj>85FCeWRa+0Q~fwWTIbNROw{l+ON#!Q#dtjwrgXfvi;XqS
zEyh@DV_1`3Hyo11Fsi9$Y2zzVlD(!qY|7FiP7<w2v{uKEL`Wpe)e4#>$qauLW6Gw+
znrpsc=3l3u)W?%sjIZCnG2S8Bmn}=xT1g;@{1ysX`xi}>LSkjPiCC0-_AX37t7bgT
z!jNeLwL@;GFr$$%t}?&^#U?tcT4HHjn<_=>;1M3%SDBaqK%Ew2BjcHILA3x<ic|dC
zxXW6>NY$O@ZbBu>OmaK`bNG;IPQ}tt2H4nyhJ>oMQb$5gZL9K!aa{U7<-0J8{~C|~
zg-V3^7R=y1q(!WfBT%LUe10&3JbwUd+jZ>ayMf2Hgf0zq*Ij7auKS($Iu)`}?!G%v
z@;1)3&bHp_kx$E$B|0#3DtGE5?tbE4;!`?QBtu0yRHD5zCvqn~I)A_KUf=Rt58hdP
zr?~ByLLV!V$BOhZ=zdIZSLp3)bbFC(FVgL0n?wHo6PJG`kxLYg&UY7E_N`p_W$({>
zKWX?=+wa@fT-WZJpZc30`$LL9w6JH@e@O0q;_`mD`?0S>@pUY;topiEZmhbF$=zkA
z|HG?ugR_J4jSKr$gGY<>+w!@mWFY^(LbjABFI0yTMVBadiSlXhfJS&9Q%wrhRPe4+
z+dyT8$uarJD%JF5nx1jw9QlJkV!(t>dKyc?_P=lUSgh;2kkc*q@P}aaqVVVqpG!2P
z9ECSrkBBT{O<969XH6`bH3Lr?PIz^&4E7Q!nTCz0W*r-KFZj%8U8>?x)?%<&2R-4$
zYqVAeAvJ4NFIlU>S{=NE-Tv=bvxz#UYG{FHXRAd{pcsORV5@hAt>Lajv9=R1aYI!9
ztyOzvWLri>;iy<U{8PvO<e&a$(a~CT&MaYAxBs);*zylBc#aYUNbc&7{SEe83_)r<
zlR^3nXD$HhI2+-QVv-g)K@3MD0vtn)%pnc#V=n*zjpD=4&?ZS&h~kf9OE$Qlz<F2X
zv3J#ixwHoSJU$I*n5tT$$xNCH+41Ee8iC71Y?@OU9eBfRETy{P3NX&4qa417jEJKf
z_^#Sx=`pwi0EAbNA7eE5<%IF1C<u1obXc!ox=Wj#ZlAvnDx>fS_bb3oAzy>sQw}uB
zedUH``AXRzlzYqGpxpDqiM$PS%q&x;0{Qs-sp8JAU!VWY<zHPce)H-J3+c7Wmp}#Z
zdN4OwrhNIn<=}(1#kPkN(CM<u7od~&%<RqWEmMt!wq@=?YBBZb0(8<=`Rt1TvbgTX
z3JvqE3)2q|uaT$Lop7!P=x*C_|N6b_KOTfK(+6n%uSK!R)@CDMJD^P~Aoo1=1h<^j
z*5-mua^F+N_x0xP+&uTM#7iNkU+&jxNQmeUF<O4{@4|mm-IasF{v_Om$KlqcQZ<UF
zalbhp6IDB$G6a#kImTBH4exVlA;YU?oSnF~Yk8p3mBa~;WRmP6(%e<DhB^WF-SH%M
zlD`4UkSR#`7+&jUf*?La&c7h$uc)<5*zUC4YFRhENxZe*ioE_g=d5$R4Rfy{e{gQ!
z?7lCy1NYpFOwNiHOQ7wqe@^cq+$DElM#@R+W}wSe+5+^t75N+1ZJ45vH?VHUlmmH!
qnl>H@KhsLz8M-y}oB{6ncL_u=Ur=#^@P9sJM(#Ga72cw?x%?BZnOTwm

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_180807.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_180807.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0e0eba802607047841382281212d6132d3c86a5d
GIT binary patch
literal 5704
zcmdTIOKcm*b(Y*8xg;f0;ztstP=+0aux!P$Ydf}))bU4-EXhr3G>|QWptviE5<l|p
zN{)nOLl<d7A^|9&2hnK(%SC|5wE(NV)CF3^?WKoY#3*QqtqTx{57mvf)gE%{n<bYb
zRXR$4hYrA*dEa?&X7;@|{LE@KBWRnkpHKK*2z`kGy)os<v#(&Xgm}ag5p<<A5?2Tf
zHbjkANCFAOq^3s~EseZEASW%gI1KT|=itfu_%WKN-Xrgo6<uL?T0oPHb@VdN!L#-8
zpx5*sdBs%m%={j@Vm2VbTv>~oBmCSZUTR2XULUx0=3-z-Wy_Nx)l!<B9lUh*+(4+I
z$|MfvM)*D3GT_aV37s|x@Xp2)_saA{!!Dc#ol~*QQwSv*ci}fy_-z`$T?VOA;|ay0
zSnpvgp`Aqw#I-%3(V;Xdj(NaTX{I%nnhvC`_sYIt?nIN)q;OM!Ni-`+X;6%KJxl>S
zsm~M6Dy?jdLJd%yN;6NalDbt1m*V1ysS(iPQp{NUJnU4$UE_sKvFZG0(Y4<K-J{qQ
z&o}bHR^vm9(o*)JRUu$yxa>bP@Mz4?g8iU$FO(Kc!L%}k)+vd$UHoeU|7x|i*6PCk
zDehVxjN_@QUGXXg*kMLrRcWf_SJ(<=r==#Hl4!58w9dz?v@70kV(Tic?>&J&{FH=S
z^x-}d%^^QCB;xC_iEs8Mp7{+b84XHPDixO}1aTZtTJsa42_}A8HOLXwJT1n@#b7iL
z=2c1z#>NGe4wgnT5)T4WlH;P_?@*0lUQ+2BLU?>aR*mr)S+z*A80G~Kl>(zRkfb)0
zX(j%^>`nw<;Rj7s(ioCzXuN8kjfaAx0VzB$s01(KFGwVDhrcbAnhx`zKpUjez^imD
zFdCEu)f68alLT1;oiyGI7#VEtv@EJjXhy`gt7eU&Euzw(t40uXX=GmI%D#ZCQ~_p#
z5lLmS)fg>xfJMHqZC{P_+=z=)(sVE+^h^XpQ$cwm9y<^m7h-acB!+rqAv)ayP>&ED
z6?i@z8xO!X%kfxXN)Tg0<lyvN0LVHr6o(Tybo}MxFCPPn+PE!MViym9NjSGipTX5g
zqOHBi+K?Gc4`w?zEZ*d~M;2QJ%HGIXUfh9Fa+dwcb6YfO@??qZvE>VYavVs}h31y*
z`Ng4+-}+?u&hX0hwU;*boy;|#Oqufb*6f>$?J2ql60R(@Y{_}LbB^wnxd*3mJ$*Sx
zUy6C;XkO}C?8<hn&}+dj9LG}(FuOaJ?TeA+8*8n(u9G?EsgxPkbbGU>v&zcIA6+L>
z=kuQSW%`zF)p5V&Zp+%CwaAA5OwMyA^+w)_Wv`{q7g=O?=N&B{b!IPTyK;^_%YmHZ
z$P*)B|5m}#mOcBk&Ma84clq6%<LDF0U_VwgBCBW1jN007cirmBH@4-SZ6BS^%Gtif
z!1C-0|I5=W<9FW8IgdVQ{r%~O^25H|D+4*_K;G4|#gJ{b)WxC&*_-nYcNTnn5iisQ
z3zanBg_NA*Fka{g-VN`z0UDk$0v-%-Zdve=Tu5KYH+sIthQBkU)%J8ha-V$ChMEpO
zgEK{<9d{1sR9Y0|88H^Z-@e{3RZEKnz%C&LP3n}YQLac#;;(8)tD@FPOJjyvBr*L^
ztLQoW2ZW5ni`HPhI-yQak-TB*CAgM`epDk<x3;M#Q(yZCc#|+Bj7nWS8kI~?aybnn
zRIg%!aBozoF|0#(rD_DMtqLqpSB-jLPS8A=V0bFQ!e~+qGCl>ZP2z*v(O@M;Pl~&6
zQi@6E95W`&vQt;3n6-q7Ac@kjD{dXXJ@T}^gU_Ke6*{qte0}=1JiUv2efn<l+l3gZ
zPzs~4ifNU-S1thwq|o0*epAp5A<m4$@7rQ<dRh>DV>7Xk9FE6)@<dSfMS=iM2ogYo
z@3IzDeLLgjK~4U&I4+&gW>^~}i4!nf7GhFd^u@<~a(qgN`NA<i91^5%pEMDi7JOGn
zgK}sBAmRFfh!DG05ijM96TWkLK=+j}zGx64`#Tl+?KIcz<4fXiY2S2}DUfMSR2fpS
z{&`kZG|jug3tx0bl6|8Bm@XeZ(gXeBUJ=)YcMU4V%X8C^{dr*)yxROWU^j8quay-d
z&LDo{j@;|Fh`oSUDJT&_6Dp-?)rP~psuA`8st3F^Dg`-Bo)ZsaX1bKkR5HYeXSM94
z(xqa-&sBvpO5079f!z#%Cb12h;>BGP?sgOb<Tz9!5`G2X^C~y78(`H`*(33FfcxMl
z^=YZF=s}i-%q!_ve(Jp4cB}1U;ghL5Q|q4I9M`)}4z3>=+<>0zeZ<*PQf4ka_ra^#
zH$Ue(*2#`_t^;FdGfG<7;JnMk=UnGH*}2Yj7Mz}?;l<&bL&<ZgWBKORrGdqPn}f;z
z1>&)}A+tZde_<v&zI=V%<zI9C%KHoN!?8a^e;572d^vdrazvve*_UsyCoklioXG(|
zm~4+&TZT(>3w_zQH`skTbb3MAVD}ao(n2TCLjItf3zu_bYo6uutWE2=j5%#yIP`%P
zpzWzGV@+EZf*Y&{_^RerEcK_3JZs7~y7TsyytDIfFEmngaWCv%vR^z18ybRNrQxfh
zC7lWA;UP;T5N}8jyfI;bfM^7mtg3}8$)_TZAS9BCVT_O~sCtPBDs=i@`E>;W9oM~D
zo2-+j;DuDJt<FnG(^gJ@3A##KodgEy;a}0l$X4Ap2wk-19iv-LpfF0X3Nu;#nk}>I
zDOF*4<`m$ntom>5+SgjPt5qzviZ{WTn*S$f`kz_HY1Ua1MAg3ipWTgJPr!<OR9HxU
zwxRG};d=`sxEh;Dz;5E33sH844~mEIl#>NX4us%!6F5{2^lA}4yaiuSHTv)-+JQOZ
zXT_sf69W%Kc$moIaSY*SBOg<lF?cURK2fQ8L5xdUuvMv0Bpws|CM|rc)=DT2@Zl&t
z35Dx3LM$ZU06#8IsFv9{JoDtBDC6fSJo`oiLX5|AQ#dvaZ!C!MTCuC;05C(4W+JjA
z;et~S`o2=sw`tB+))U_bmLI`Sx?KwWEONM#{e@<Ca<JfPNnR@8fLpLTll>4)?XD&3
zqP4&_FHA1Kw!Y`cZ_a&s@z)pEzw^B<inP<oH-N>~l)0L|T3{UugR9Q_?RVQB%mUFy
zC(i?sYs8Vhz`C>TtHS;0-RQ&fK;-D;nXP6-*;3)GYuURp|KRW!<ZJMPfPmjuX!qS7
zzBT-ltI599AVl(SX2lL&JC%U$X3eeUWdGwv=dMoeuFmO64nDRz{ypCzP1XATPxi9N
z(v%$1QVP@-_^yfgf~yUsn&Dss{-BtFr?SfGGZE)})i@cJRZ}P)lVstYX|Y^Yl<GC@
zB5LQaa-|Cs7>`HzyGUE6bX(X{(KtU75ndGopbn=J>BrC&jRZk_i7bCc*1sSxq+<j7
ze(TNFqTv)_E4CtAV`d~hQf$MJ7fvw~Nk@w980tVx&ZX|f?x!yR^vsA1mXgf(iC&^1
zZ?a{)X>ZX8^Mb{m8AuNlDVT$PntOlb=EyS!pl7oLBCJo@NrGs4GGasx?Hjg^o1A9!
FKLET`-xL4<

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_18528.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_18528.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5099ff956c0f6feff729364968a34003d714e426
GIT binary patch
literal 5177
zcmdT{O>7&-6`mz`m&^Zu>c^xUC5mM#m1W6E8n<fF#+DPylHE3m3(GEuHFrr-qDXmn
zCE3C<rHd4y+5)1`0$QgB(`^CEv4JQz*9cIbiWI$QtpFyrE<hkY)Hfz}QJ|;3S^j9P
z&{5N$LkHl_yq|gVX6DWJ9{=QY+7PsleD6=Dy$F4ZiAHnO2M>n`gjNxUI3kTEYCSPQ
z=(K6ZJV6qOC#G~ejj6SsGx6k9!-_$~nV-NXpTMVD^Aik5ze8THTb{6R79LG`3=7qV
z9P<ReiMN6;R?hkaxve!n;o$7=kQ27%i8$Ut6Lu5g?M+`C7l^3y0bc*O=9tf(jfoN~
zNU;>B*)YXtI6StzI(FjFu^6b-28YK_93B~q!$mY3K2|gQ9^N+LOOW6yYHbSW?TsUD
zn6B3~a^4+u%?4ec?3F!>6f)W;w_8UL0J7(LeceS6=lrrycHnurfMjXtgO)>fU&mfU
zJB*6N524Qm<)Fc%*4EvRSr5q}*)a|4<=W(c9MV^8H`rkG1s?mzNN&e^avPil+3+FP
zA$Q2;=`+CZkV$ND5l%^N!{1ydmMy|L=XM!vw+LssQ{Kf9O`E%bg2(U^6NeI}4!ouX
zpM>nkT+FX?8O+sv4;$>a@|}>wy6>Ia>~6Q{YV6<!)i|$Q1a88ruOHer+tyhB3!d2<
zl3bU;vlb6lHpyMOXA$|U_*Rbq0wUn&W)fXMQTn)m!zW5;Bzrz3KESaWHEHAwD^6=v
zR+{96C?Vjpk6JX7l-6vsLN+O|Gx)X8tiWcHyhhbJGM!~Pjaq;?z!Rmcz(;p$&QxZ0
z4nH(8HY*95ZGlfECnbGs$$|iw0`^P50jN1dNl0<LuD<^<YEZM)Wec%+!<cJoVQX7+
zFg5s?Y)G?+{JB_~&)_#7X8{9Ji@av$QZoWX1QKZM0X3WAVz3R|oz>`UA|V246|xI8
z$k2$XIya-y_?TiDjY*_gyv6gH8K!B>Je!8u7*7PAP2&Nz5CcmZ#m}7Ofy!b^+zsnJ
z_2um!rw10Y!n8Qc#`%FsHa^Wtli5r^o8&XnfGETVBz|Ug0H^`oGMCCEV{n2}HWQoX
zg$$qGH+vxl;s!IGg~J_u>4l+}K%jZHCe^fs0dNW9hWJy6ggkoGj-2l0@uhL)+$WCi
z{K!3r%Rp6}zTz3x+5OvBuO7W}bd6mPZ}z;bI$zEosd$2lWyPI8dJj|vi%DhSuCup5
zl)b)Ret-4U$|>bssdqEjr+WJebj91I^s3(O0$uipm3h_wY=ODw@+>EplEs<Qq#D|{
ze)9I<C$5o#xe{nohSfmt+M)G6^=reb|68|d)qkYGlzl<Pq566XmV3Uy>fV*T%1fmm
ztg)NE{RK<K)Ak;rJg-<(&r_vusGk0HdR@Bpz4e6;-M9PH{bQ<UtU%rK_*N||7R6S2
zOKtBfN1pvPyA~)V)yTf}JvRfl&fRSLaNzbKb?7xU^7<n);T<IkRFy{F5G?EIDb2sn
zt_RkVSAKLetoDwmo{^8~kEJ_ro&0#=kM50$g!+0y^(0^w#<t8XF~v6Jg_Yf9Z>SvV
zdhcARM_Euqy=yP7_uL}Zd#}B6^9}X6Z>yp2{GBpc4-ubrBiG)Ca3x5yHlLD4*PfAP
zhA`J?ftTilOdJPsqxoT=r>W!czE_cqrWz7M&k@smA@02(twV!Bh`6oPh3B_O5NB{I
zpmMZKJW*=NF*4aoDpN8oGYK>HKs1e_9}{2&zrbw`X1CyO&62E*39Tv~nQ5k9s4Q|e
zgLW%eWn^muz-207%Go7%!@6wOQwov^nFRPX!-*Kng1Xw)nLR;HH2i_xe);^?@~!#g
z4)a^fcbZQ&{i9`z%*Zy`3Q4W*DS>424Lxb#L)SCMgFK8L=sCo+g`!cbMrHt4HS1hP
zJU7SlfU}f1$<9K@Nf)4_Ybd3;GyHi-0@(##08ESxX=I#B&FeU%(KW!2I)p*I+z|dW
zQ-yE<NR2wnO7Te{f<;~UgE3VHa@`q?OhP&l@l_jfR@es&&Dumi;Z>k9PxR`rSG6I=
z`|jHp-&VYLES=>*<ZhrB!w#_-=qp&u!LHTVO6=nC{7B*J<xqGvy^_9oB0pL*m+h|Q
zgG&dMV9B!P-)Qf@WAEP}`#0?UWxIEIcxhNUaQWb+gLmvb8)VOhz30Ba<E}rd`lD;l
zZ2I@*$I32m{<V7!-}14gV~SZhv+3wt8`-cA<qzK{1I0I0va`&1i!Uk%%1od*1>?I+
zyUMgH-c4qga_VlRUybww=tcII8P~FN$ysDKLAvL1|D}F#y|b^(*q3cfw&LK=oJDbU
zab>a8{fk^Fes$`~)VlXKGiAnI>{Q+;d)msu?!S4h6kQD<hdVzi?1!U?!>`$JiqO$z
z629<HgvbF}<Oq0SCXURRfhG+F433U%4c-sDq68r|`K>U5qi)dG>!_Ba3>I4;0u-7?
zYc0w--C7;Ra<su(tJ2c+m8@ALXJaEeuHoHT8lDp<g#ZODQ%x*s=pxkke<CxSWf<57
zul`%7_NAWf=oN##;;e9|w*SeU{%79Vb?+QG!f<Z?XR)#44LI>0Wd?B9bv*S~cyB2L
zp&`5o+y^*v0Ws$|Hfj>Si3ytH=TmWBvrD`v#p0|8<(`ok(osA02yo8GKJWl-<2)Z_
zGzx0?_#{-ZEP#1N(kS>G7}D!~E~8lzQ1I*YA}?e`9Yi%Mp3Y|Ys8vT}&Dn(57|sT6
zsK4j<Oq|C>cv6})p!pWU>$nbuvpAQQL=h*NCUn<u+of-<X<0Z4DsRD0yj%ls2Khqy
zQK%L3<CRcH{zSze%#T&P!TjhW2UKjU&J||`18C`$ji;agXyo_Des^r+yC)w}q?gVg
z1r?Wn`SjB13gat|-w1vXxfZ!O4?-86KLSF#XZg9M=PFE_61l;DFmr9@_7M=;>HMKb
z0Yte9DJ4`2uPxp@@Co@!)q&iA=#|J*mrq?f^{dnQ*9zkR;{Tc#+iYz&0=5JCwgUOl
z`<~#Ao7&l2usuJ1-|74J_U_oe_b>R%AcsGHTu&uYr!WThCE&o;+_gerUmE^O&cXj0
zjcJSooVGRdR7%pU@oYwv`17+uy)t-{&xlz;Gebb?ai<4?X0Js}ESXJn*O0zeEo7MC
znJhP#=3f?KU=zXwiGP4k)l3k?r^xYV<opW?Lp^U|-tD~DSv5UF93p`1*>iRH%5c@9
zlMH&g=W6&$xN6l&AKKl0IejTz_3LDyuKalrlMl_v<fxk&BRUDU61*I~6s{r|mP5O6
z#ZWcFxDwu7rJ#qkc6C)Pc*LMU$LjFPaMfC)p6$Cjc4h1#rXC(45aIlsnIZ`PXJ^dF
N9ocksU9{`_{3iojV445`

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_200147.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_200147.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..985d4233de0971b1fb0e183811141750b85f0833
GIT binary patch
literal 5287
zcmdTHU2Id=`CR+@-s}H3{z+_NNJvHM78(*#XewF?2@M2DSCRE6gjvS-CUN4};och{
z*|B7#PPMg4b|y_R+CyEbQVnEk_A;eXwbDIB+Y4S$Yuz!)Qqi=$nTBf8p7x#V*mXQp
zx^8>evF`Et{=ak1cfRwTKbp-31nt+qyEXOO7KFYcK&6?t2U~k7gq9JHcq)v>%Ky|D
zrNWw7?HElVftptJR7A`Fyhfm>O*?S};<b;#(~a>H46l2KzP+tzjMXFZ<1IWRpy{Rt
z`q{_eIYH0s;WIpjZfuO7F!82$bYq6<3YgzPV@3@Uj8&gZ3zW~gNn9CG*b`@88#v=1
zQMm2Fh+-;_2G6}Vc=Bw}R^u`UV=a7J5$KnZ3`<>Z)0)cY+kc+Ay-knVWL*W%Q<%n<
z+e8brL6oL0rVxrXV;g1{feSY;0zPK1(aor=J38D9KMUc!y=^(>zz$5$02Fi9$P$n1
z8b;VoBx|@DSO7mQ72SjzJ9%nFQ}H|Is*!FKOcZuiq<8Q(2r#VUwTqx*heYjqS+KQY
zcMx6t24>iTTWah#_TE~tudZh+cH&lSA?vdUyApF_7X~fZN~j(b^T7J+%j=I@zSrvP
z(2os7R<*Qi$6hnIsmAwTg5@^c_C(*CcKGhaUd#~BW4o~%!W#Wd!=nj}o9xPN0uxLb
zR_C?{Q`l3-$5s5p-Z}};5^JyVs8PhU<2^iGv-=%bgLl<gFn*_ny)_mrV6v{^y|@GK
zS<zM2ibC%#)9Agw({MiC`vr{_kdGM=NvQiY3OyT;W)xjio)W}Oa>OPp+I*DA5*|*`
z$YI4WCq^g5z^p&SD>^X{nG_TzQ2wXG(EzWovw>@&+4)%*gd*xdC&^J!@O3KM5HBgr
zRUtGvB`ezKysS_s6zaS}y`fNpib;~i5HEmY$$wBWY(rOJT%mwO9n`af)~lGVL@)Uz
zIUvf!KLde;2oGbC<OY!@9XSPxb`I#wCI6*>Bq#=AGCDCK39_P#5C;^7EQdd$=;i2)
zP)5NtK(C??@z?y5Vsw5^F{pojb>*}&DCEFH3FNOSEMIm*VTfKo*isb|p90|!UzRbH
zm%=|MiwY~uUh-cNf{Foj%)vwfDRqLY?N4t181KFs6=$TmKv3wO3It~Y@>Dc(ATTLJ
z<Zej}cFV%-TsJ`7U_{{gP-M~%Yb{43{ux1x2;t}E7W_c2AcIlZhTek*d-{$5MQQq0
zs?07P0>AX|Nnb*w#L=Utk<pwwkUWr~HVmHlz#|6PTQgLqCo}nF^S%UAaJFWS=AB)+
zeR=1>gyBI`^Rj+PpV^n)mphW*+q=<pD4{FZTp8PvJHddkvt@Z`X(%(0eJ0<we?|Ow
z;pW1cZEa|ydobTNxPJKV+hg|}7ZUn1=kU^S=5p4z;n<(h-*>o{%W%()`D|#zaZu%Q
z?INyZuYCd5PZnCeA8J0*f1uBG<lfq7Kb&tpoH$)@@5%P(uI4)r=iNsV!zGwNTjpf;
zWbRb{slL0-&nE^7EuPGHzQvb&V^z5MlTR;w7WyQ#POZPN@$zW?!06q#`22o8-@+$O
zfmdxESzGpa7Jsp;FU=O*?H~4j)c-+$?)6pEM(0a;_e*Jp*z36ANi#)n*DWg7mt*tZ
zgR6(vp87qt*7ciXdGCp|0i4+VR5p04BR87s`XIbImfr`2V|VtgJN|Haz2)=ny!Z9A
z;l8Ks{jM8b*=JT?ymS7Z=X9DSavj+hZXM6bxuJY#-zv^`4&=Q9cP7?H|8#zI{msv#
zdGC)w61IU`;xeA>o2xH=(e&~|H)?zSYddoFJoF-a*B0zA5}Qe9C*5w+?IE25I)xDh
zd0vbJt9J?@2_HFUTX!HVmJvqN0Mxf}l5=%222+ovvM~;*Br(;sm>%%t5ZASs0c+zL
z%*M2sj_;C5x>DP8qr9ub4CW@Z*nssbR3$gYXkHUD!e^3=Rq00eDp##P%vd);#VoS5
z!jCQL?SbH?pfRz+Vh+}zw$|BZ<+T+pFrV+H(?5t#SM@iR*H!5nti?ub!sZp`_O>S!
z!t{CMV@Gak6df-w%t4Chg)5<;u=xs1K)o?Ua{M>dyF*)-TYY*(Crt(B1hJoRzW|-0
zgBu_?rRX3J$qNcoPCkk?B3y$+7riQokbeEWYF<&8a_0A09~*q4lPGqP4k~sewvw)D
ztj-;Uo`h>fBD++VNyT2kDf()569)i31)ua+=;EkkK_+XeKiPkMFn&CKxnQ)VjwX+8
z17>^bV)A1A)q<%xbvAi6ezM5g?y~NJ)0Hq3SwsA%_bv9+OmYS?Patc{_;Sy$x$aqB
zNob3frub07YKxz`Z+Cxb_vP)rT*roefBbCGWKQ(O2OrRm^k|;;6gXpnv#7m3(US<I
zZ7@z5l7@88&&@zdnUm&pV1sMjfv(}G89EAFbD^oFU;_s`zVTXhOsO3v7atb;V5&j*
zs*M~TEqq&3(8HUDiXk`_6t9hGcsiy9n64>18XQsxC>m=fD7mV#(UIkK5OCYcBc`j-
z*r4!);<{E_gF~%q+fEEIrbb(XG8)RPe@7cDS6+cgJ=A1&Y{hd5g%BhwcDkAbs*^^Q
zml5W8_9&ohy!vmg+IM>PM6WpF6|aXqHT+NZ^gr{?sCs9LQ8nxKe-;~0+yOJ0BjzC4
zT1G;DgYy<b5E`3tz;2SrRp{V69}tg_p-~nj*&l>@)!$PK^s4zd^a!rpTJ)h!REO#F
zapFrv6AR@!)PPXyLU*WFE#vu!!cIW_uEL9g7?sp)sOW;>XheXN4z+YJ0JU{!QBcg)
zl<DU~vx-#`F3$^*px_S+kx6;#+fo6F<p`-|A^(<(2(@%zMM0Vm%aTOykZMjYXJd;x
z%c_3yEntbkC%vy$nk5c3yW+z|M@#%%(dCZ6R<t`IaoU{m;YTK9b1j>f%tg+Tp3WY-
zySMMtlb@aW<jmb4z41s#+nD%iV1cB3A$g(5HK)(5I6wB@^sZe2qJ@dS3PfX5>e=M8
zMXn{|T@gN>y*Yd5RUjG}sAwHXXGw%Iu54RwaqZAO`dG<?AcqeXz3uP6edFz4U5F1Q
z&Oy@teqPk+s#gNK9qP0k@!<ze&L>Xl$?BY~@pBK%%|C4Jruw=6i@zK)+2bSXUE<TK
z@i;Q#Gpo@i9wQ-VE#LUhh2g<C5APC%tBgc7&b8Aacv%Ib5lI%V&57HEz^D+Bq9QyS
zBeEKeYBVUua`^ZsqhbCgQjL~lhdVkO<>$k~%VGd*LcAd94s<0gMNwZN)1Q&~FQ~0#
zKpO5{&vj2p(@z~M?M9ZS)Od2dw1+_Lu&1eTGF<8)&|YMBF7IF3|8*xoTUw+sm1Rz7
zklRymc?zv<4~<V#)`H%WYD>12v@kB3Y@{40>0nG=5v~$TMjWy^N_sLfAcIxqCX%qx
ljPc#^>*HHyfVM7Ch%$f8O;eQp;kXuAy&IO@*Ny57{|P&2d)NQ~

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_211539.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_211539.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bd49deb17c2f59f6d568972ad28783d8f1a569ea
GIT binary patch
literal 5789
zcmdT|T}&HS7QSPT$K!t+n|~9?FQsW9{DhK(ENw$V1A%VZY_>_sy2dkrjj_qhKnfXa
zC%au0)RiDorI>Cch+3&;6DjmZ+eBKa*|+ZQi>Iy{YnGLenupCBEqU6fJ$LLe4sk-e
zKM#8)``&xbx#xcO-sAh7>%ZD;W(4I=7k@we3lBoy;*M5K*~a>Q0->vjK@1T_=Q1^M
zj!^r$QT;iRKr9hb{b)loHKSw6ko8d+?lJl&$jK+j4Ta@{G(){j-pEdH&S*j=#Ml@k
zi$cx<v(itHo1P#y7nZ}UmbVS(Ou7BAzKzbAb%-_RkXR;(I{O0*p-(YSL<9Z-A0M1z
z70YmtVc1BfV|?l4D@S{LeM+{`8L;Pprl75d&w5ygH(!7w$dnNDHy4Juk=4iSTUhFH
zmJZP&TBi&s-#5A0GaMEnT5n|MoC0;s$q+G@h(x=n$D>tQk?0i35wME6^XA8E*i=NY
z#3MvEL)_Hgz$=6j^9Wk7;rT40P1AIu^PhpfSS-%-TNtJ75tJojiD*#~m5LrXD)bv2
zg9dfwFq=qY++qoqVtH0-%B`jh&^<b$^ikU>*zH((9-=}k)rn>5O3N8CZ>1HmZw7UK
z=cYL*ZT`oQ88uC;@&_UF<{>NavlI!jQbkrFdT$!EohHz4|3IQiR7dr3__!b7h^o^m
z<fxw?Q4CRGnB|5*q?S5@!v|JJDLNsnn8&#25a%ED1sR3%bN<K>tB~QSpHU2%j)51V
z99vhV*o5c^#D9?CePaTr7^CBY+Av>agG0lawu2YAAjA4pQ{FeAY!dK_HEV%K4?NO)
zRLA6oX5CM07BC!+Kn@2K2Qh&-e2|J^EXaUkwTdWIba0UO@rsdWFZjZ2L~(5_f{R{M
z@l$w{unnm2>cCj=bAk`{LmdsZYQZR$EEFux3NI>pc630Y@p4o#t=dADuL3wVPb>fI
zZ@3ucM))y*fNdD|2S)tDa5S>dKg33a2A&Hv2<+%s1N0hT3YKAlks%*!uMmy+Mp!Pw
zhU>>BeW2Eafhg>JQ)A<S=7XS7oExJu=G<ODWP}eNfcTKmLp!oLW_xFP<J(hKuXJq1
zYR~Jf+KT3WKI6N_Elkc&CR~ZGRCSANYmttxQOMzxx}YlGlQ1kh<YzkMvW_HKyk<vs
z&s<ct?Us(O*qyUOGegOe+Qc5YWdHKS-BVxNyQHrB?y|Tm-jgW(#@#q=OuNdiH7y*R
zKe%`*VN6x-mtFg(skEy!zE^hbo~B@m(rxei7d`PIxnxhGS}tk3-FkP|Ux>T4cRIfG
z$%p&plKyE640xZ2x5SNCsux=myFMWjwbwgjSJO0gKZ9Z}w0Kx9sb4;Gw;4c8>%p(5
zJl-z50o*69<<8~OrH0!l<!4`(-7kOHntb)lSFfK<zIyi09m(@SxhE*QgVS`{UH<;|
z`004<m5#+TiOx^9C%UftWOvIny+WI3=^1*iG~On=b}qh_c<URw?Ym0kX<CQ9Mv5sH
za*8n%K)j-d08uE86~?(p00*yDF!!m{;f1)qibNF3l7nV|YmKWIV&oZ!`y#N)UdH)W
z%m!Vc$hIv!=|`RiPZlAEg&{Sv`4u4&p#qm=Kc);ri~`S3(i&qljHUBYW!ggSYAcju
z<Z1J1HS1<jH-UIvHv(K}3*QAYi9Fv$kK@YoO-c=dMY9M&ezm!XMv)e&L4DyBg0y7w
z2!uAS>=+5?F{5oN+S$esczBwg5Xq<NNrsA<gi6glV-)a(q?XV&t+i2$ly=@4701kC
z{+OB#Tdf7_H)+;`x|l`SnbTNQvPL2)62k7B6oqQF_C~!Cry7F15p)3=`J=rQ9+6AD
ze()T6%~GrLkP<%{RpAkjp%M)uC7ML@jqGoMfL(nJ)zN(%{$XYK9+Upm?%YLF!w*Nt
z!%WQpThq9&vnI;bG(jb>5kAT-=@bJaOpdV%#jq2>0Q=wt82mtjuR4#SXM&@OX*|MT
z7-w0?dd+A2;c@mD$3;2Czz_S!Sgr*u6$2y%fnmis2&sb5*qUuLHz|f-M95aHEs6mc
zOqk>j;34KfG$I6t#-rnK|BVKLoHJymI3ny@kUm5&vK(-zuSp>TOmISFD@70P6e^Q5
z)LFTG;E1co-mDW*NX%8DhRg*L^#LCnVSvB625gf{4HUzGUjU?f$N=)v1ab)S6du2C
z@)??Y7P~g(h?DDsej|MN4^_roH9FskU5@?wm+|di87tGCs(YSV*;AV!Ql4jLOlecm
zY}HKFyVda*zcN*=*vpdTFQn`*Cg~Sfx9wgSogbCSN~wDe_^RS+^_A+&-O{n?=Cq|~
z_Q=eUYd>2!KY#w_v0J@My-DvO*>WgJ9!gpcr7fP>j+u^Y;|rJOFM+yesVBLuO}4Zp
z$+o1WZPjR&F0I(zvm-Mj@dJxH7cV6%nr}b<#gRKllBZt3cgiQ9@_lW8Q>8pt#XaXP
z*|{s_+#{Vx+l%knYh-&(%DzMDN}Fx7^)vM;bA@zt)ehvoVt38$d~f1j={~u1Ut%Ox
zdMIT-EOo6~UGKGCJ$&VGoL}rpxt~i~_DP-hNzdGAnXE|DuDRy8afP-_pSWlB%2sdu
zRLWYNqH8|fxfuB18LT)u+db1gcj4XM6kT!c=%W53^L2Bg@dI1RTmPAU`RM1}A9vrr
z@M&*q|4Z1qYqoEuFW#84R;B1|AL<voKI*&Px7?W8bs$yKnx>29deXFGuJobJXrR`d
z$m)=~x#!@t0`SQdobcdiSRaOOcnK3R#OPuKqmStrGNy+<nU`|oAJV2G>fsjC4H805
z9xC*RG2EnXWZ5%j$n#i$8{q+#@2vnoGT2*omKc@iEytTVFi6z>C~ro=rj1o^7Q8y6
zhMYh_1e|RQIW(J%T4N@WW{mA1&O`Oz+O?-5+Y%LxQ86YsQ}h4iO#d@<78RW}M&#|=
z|5<Eoc>*@PMv(?~viAl50l&8(g3#a~wL}ka<igE9&iJ`z+_VTRFZcp}p7k~6cbZg2
z3qFJkH(%WR0Bw@A)X^NCPcgzn6&^<d*MWQZ*~&z?pQ!CAmW%T0Ev^^>;b?@dGpW>|
z*m8Hg4>O(v*kPQF1X%n?91@1P6EK|X#y(8J$QV5C@WYVGr0*)jz^p7k9u{~WKc;ge
zl3@_Ly0+XD+?!zHgAc!;(#RT(ib|yJRZpqZyIN8%y|U^qmQJp^ily#{R^%$VYP(`v
zr9JR$=}7Kq`Qx!KdhYZje|qMjfpk&Q2{3^R|Bab9R^bNhy;*##YN_h>1Ssv4bR3ix
z=j`5@y{mL-yy_-<YjkP!?r~6BDCy`!4>H)NgYl9@Z({0p^Vej@niV-*aIaU@ES#M`
z`@1)!uIXO5%6}M&O};ie0pA{VSstnTzO#7CMQ!b_xJ>H3Z!7xu)^6Rr_Q&wj$m*8*
zR0gTj_x1HbzJcS5>x3`Gkx5qS!|)HuI6To6T5ECmm7wTDK|wJ=io*-+TVq@%d!bIN
zDVG|6Y7i)vOw{;>qG4tUsdHsQhHf8?GUH+PC)_Z&gD^q-r|`9=CkWzOWc?em{T+GX
z;i{wGskmIRrrSdtgfQB%>m%=V@0uyoJJRvR$vY=AJu|A_z7U=duUW9pj9S}1@Bg^}
zd)!;sBb_zl;Z*{iC;UWu$DZ%>+X+X!c)>gGT|>}ZHhgaV*s3<u?y{@xSK8OGMSAc4
iTkT8j>$tssnm~l@dpblA?(h2b$WfKDZ@X+!7xgbOncE@&

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_322972.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_322972.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d1f663a05f25726ebd7df7aa74fb623579880196
GIT binary patch
literal 4566
zcmdT{TWk~A89v9J8ILdHOY9^hkP28S;6g|fSOMCIElV~jmzYJnU6qi^GM;f_$M%Go
z34!dmnw6;5E|u)4s$#a4$V!#!kVs_vP^GI%rB8k6%UVHOYf2?c@X)-44V9|CZ2vR9
z#JEQ3^`Xb|x%~e*|Ly$eJ7<2+aW(|y-Ukn+jyVx}N(QxJt#-D%F+z)oM?8+B@k)!w
zu`xC!%;OYB0*)DSYD+6EZxX1O<7FBd@#a_1sn+xe!_#-Dm8zg|ixrU{@8B5$#oR6A
zTV6qDUqQFFrbk%bc84Cf);+i1LE|<P5^Qx_?6<L>+ax9gbjw?pE}y#?4CrjN6VM%%
z-tgGv;kPe^?G2`~&^N<>d&>x}0(GUtOts!l%j1<QKV?_#s&$@5DCKBaL+#A1^?0n>
zR;sd6oMLI9TUB<2=!P<kzWYm%<y0N2a~{UK%4BOY$?TL%b*YwV(2{biu9T-?HSw>h
zs95!oRjQlEtEQR-sW!C@0*t<I;!(uZMff!FPvr=e(5qC2Pz|l#UG$h#Z&lAra(Q!u
zR-fu>(rRw0m8xrPZ_wHz*;S;r8(Mwf-%EN|shY1C{cxQ^w~?O?NMvjLCY?%z<Y}E2
zl_^1*tOd-EC9+?BMmH&O-8LhMlTs)VjPg1Yl0wNzL8mJX6&FLiPRoiY3H}b<EY2#r
zIm*jAGbcnRrxe{PD^ipff}*_BP1L({JJh*^jsp_O3W+3>1hGcCc?MLnvJ#RMLwQ(?
z%RyepQJs~<IXNf`Hw;5{3+N1rk%(?p#AzW3lVzQrGbs2Lct?722Z-F?vixnLe@>L9
z<(W`e=${IOr$fq=nCuHp3Q473mcsptkeKO*QNNJ5F7SLbIT-}M6fqf`7Nn#QKQ?na
z2<#d$EP~6&2M14|90ZQ;-dR<dE*%6@82HOyL8YM=K4j;zeVM*I-mrCR=Sr@&+;=kH
z)4uhDb7ik)uI6s!k8W^>w2^0ATW%mXwPg8%JDkQP@7{c9Vd!TEfA0UpUpQNs+c<c#
z=slTcORmoRfsC4_N^RX~%M)M6;^@L?{@l``dt+<V`q{_6Gihtt)BW*4p3k2wdR|+K
z7CrrIz3aZuZmf5H+W+W$ad52Y8B5bo9M0@$W;8dF|Mo(l;Cm2S^A#qSd)C8`9dD&^
z*}dmuPkuPxS#%#*I$w16tubrLXIIwdK6O3v7r$|_=)MRdSX-9OusLsTb^**?;vWnY
z_`=Cg5?`<<p0^{Xe;Y!8Bm$$7hg2@8bVd@CSt%JNX;3R1bPUMK0T_K`TSO{~)nThP
z385M`{=lZ<SQTb=xPbmUU`DHyc1)@3h><O6DjAzfM@%58C7`srbs7#i#hX(MPo*ph
zvE3*!xaFFQO4s3)P1_<EZW}gbRY)|9qFN1DqTq;Qm5O<5^qrPxY7$<-x77J~m-Vgr
z_4N=BMzyHyD!Wp>PB2obcah&3*!&90vPq|T<@SuAGrVv!8WuLm&Tj69D%`kPB<RGE
z?Nd<w7%w&=fA!V?M!jUP3L8hlP{aQS2BoHeffj&cOyxZ4RG5$6G;mD-*dRw<CgS#M
z(gA36b|@Z7T<1e)=J(bQ<*}i-7!JkdGtj9p`^mCBQ2kXyKkc}`_uk&6D+Q`BUOaqi
zqw92W&l}Qfz%(FqlQ`u!HzAkbrqjvUgb>#$IXVw;2>=<M(rJJZ<+gN~EcTPC4=UZ2
z6mBWO8F5aK0H=b320G|W1v&lpoui>UZi?4~bvU$<k&xs8?W%{Sa?dx}qEnLq!Ie;u
zE!#oBZ&qSrtw%x{0zQe8{0peS`7Il=I<nS`^{!nzTjIRgYnf~Lw!1-Xq-3#aA3Sk-
zv(uUB{6IdEKT>%A;l%R9qu$^3{kHG1^PRN0>~w3RC6@<a%-i(`ufOQ^7kW3m1KOph
z_BXWQXOu7ZUXki9vG(-4xn5|pwu~(|aF@%;i}MTfO9y_GDzVNim*H}u4R%ky_kQ2K
zz5?Fp{(6bEmfW2sPgkk^z+YS}&1|(HhfBL)Y)cqSuNQKS8JIBzHM}8l3h|~ChI46x
zb7_V#)o`u0NIcc7QmQF}mAc4StH%z#%B)mzBt<t!Y=J1`6gNm~fh#<bR@IVX8l<(l
z_5qvz1!)aPq|$JbiFcNo<rqa#id8K!0>MqChN>#dTS%5PSoPnES{)->S+=WHEU}8W
z!k*gxCwuyzS!Xw_bEI%X-2TsUW7i$vh>t1@u<Q&({|x6XiXb&MHK1;i%mr+o<wMdT
z(zPpstOUa$SqKg^4h9WSjlKX>Z6qJxL`{?vepWg`Bw64k3J)?xr=dDNXuM4Mq;848
z)6^Kx3z8@s$fncbxR@0DRvn--90DjM*v!@8FUUs|x(gnavqCZ~1mi+-Qkjy-1tpy(
zs;trE%q)3{$_+0SizLXiaYdHN=V~2WE6D0JysXQYuE3O0_{;af8$eeUwRLD0%Dzr*
ztlZJ1T`qguwM%7ByLRD)19>_YxdpDw`f{<QH$Ojk;@5Bg=Hjm|e*Vt;FKEicXy;)H
zz%KxDnQhCBt+qexfrr^mU^*FX1ekVr_DJSPneEK?tO^ek%ZW!Lz_c^kIe2c;&U7^2
zv9zx+zkd8N_2!lX0ZxyWd-mVIdhhB_u4$v`F@WZO&Wa{k%|bx7&v479U3lhh-_@zz
z#kKFz#^5FV@A>X%_Wd91Ws$?H1&q7IZw>?keut51)yul_&Nvo_&!AcOK+xG*Pa+AR
zn`2S<>IsWUSrKl{NY%UiJs~NJl97Z)66p3y)&wWTIKPZ4&k1tz!UH8C^0RT_jC2)-
zkS0hjK(%GY7(YdhKO*i=XkQsyKI;Ckd&|^`UxzE&>CR4MCbsNkL^d)T&&0PlGIAns
z`{L1sqhGpUv~5NvM`g_^v~Pc@tEY6Z_qnwTyK=8D4lN9AA?TJm_AbU3;#+3uLw@?Y
p3=WwDqoV^4hn9!7$!L2RBg}ot#xV9ipD-g=&xZ4BAKDF1{tltP$}9i?

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_347928.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_347928.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d2775ea3456204bd86f64bf8bb4845d02e636377
GIT binary patch
literal 4995
zcmdT{U2GHC6~1GS$K(H>#Q7mO8&Ve55D1VEcF}IxEde$_LRrvmA)%J>OdLCo9cCuU
zCc0J!iK>oNDd7o6TM4sTY0ZxW`xc~1OL^M156viOv2LjpX;ZblWj9o+c<Q<1AB-`j
z+n<MCY3|%}&b{ZJbMKk&ocX=OVMWlMI&X|jdl34D5~XG?4%VN-;0h9uz{Jtn!kanE
z=(J(Xc$Q_5$i#F#rKN?pU=Z1u{dpdx1mjEiY;FE9Czvj=H;anSngvcoF?S8U=9lpK
z+I-M!xx}8els&UvLT9Z8BwEXR*`}F*?J?bIfS7-D{KUay!SbM&@I}r*xYA2{5=MB|
zvj%!@3PYFE76ZDv3Czu+JY|2yOhb951KY86#)K+$v(=j6oEdDrS=@65#3?6cumhXv
zN}YCLLy5+wGS{t?Zk}o|W7|#Y4YXc#?$4mbgFO|N*523h+`eAy#pY44Bvn_jk}qhj
z?6C`bsb#qCma(KERgdchW^{;hXW*<-z6u>Rq7M7${F2SE8UYPa`*VYUh7HYByRqae
zc2WtI6(stpG*sxXWn%;ORq3nJf_dsIwY9>FM(oDks&)FASKENOl6AT@O%>KuMp^OL
za1(C)UiK94l0m=x3yY>vfE|!%h&-lI7+?rH7LrE;W@1p{#5yh|BT{HA7!?Q?l0u1y
zNKAzn8&8G=VwxHeCE&?QQW68r#5N^HBO{6&99Ja5MFstBPEIKLz#=PBR1kwx0x1s@
z<zaHyv*B)Hmc<LfxR@YDAvz{en<W}(5=1T{+&HKfb`cYOpC?>$cvub!#7fr`H?`4m
zX=BIvcrrX1Oax^mBq_!D3BplVgRn(ZkR^K2gax~0!cK<bGU1D>WtoOd+soS1q0XtK
zG%AmW!eZx0C_EZcMv{pgp@^7JI%O%`sfc6aoj`SpW9LOdh$bRII0hw|2#$(ULX7Vm
zpALe!#0)3lgu1%-y|w2}kP!E?RfXx&7O;kcM~=abspyFtIo)&TX3u4IFFX9|;YSYF
zGwRS9hn)5E5zXQM%<#G8nkBa>_tA3OUd^#rJq)tC=FFk&k%beQce{Et?=4cfsJ3yR
z=G~_rTWxO5T*z+Cz4>)>ciNHnw0`FOy!l#lZg(!Sys1a?^rX4Gr!lit^K43Ut6)cD
zHZmW}_Gk@(JKO{3zO*s#uA9Gbna>>7T<vN05lk7G9hp}$r?Q)totx9fH6FQJGN(TE
zWP7uX3q!d+&A(T3?Oo&+mHQ_br|!Bm*AZCf^2|-mPR%RX&7WS#ZO%?z+i|C7ar1p<
zaqAZc?w!)Q-q+gu9=MLC*_FE1?3NpzTyL)NTIZcUt^J*Q+&$%YC+|)D#<ldpp!V*d
z);_4!4W;=<ymgMB<>#9+-C5zr?wpX@cWvy><f3r@y~W5EKl`dq+jm^s(*HF-@U0(h
z*t-r#j)=J!;KUqF2+^=86HXG92`LdS!YrMIobc!gpdPqa5JoYb{d|`)0KfP#R!WpI
zpvLGmSG95qFk)k@1~?7Djwv=}!puvhT*|E2N@{DRXKX6(!YlNH(_4&sRn;&D>A^Hi
zZK;w_68x)?q;EZgW(%yVdvReY`Rcw{Q#Nd=HA^U`!<Wd7WiK2lyTGQLf+^*y@Vx%T
zov{h?rL=>&VMEHTG?r#zcOi8^3bkM>wm}MpR0=Dcn8&VL+|435GYIUdaj&>+?<o{8
z&z!STL@9>T{<b$Jli|?$pd6hMJK6y90=l>uWFS5tQo<u0ZGdV8Ng?Xw=Oh&iuN#O-
zP^QO4!U^Ie1Zn}}b)bJ2JbJ7`7cf=<Yrrn;06t)Ul9&L}!z08z3_!1R?E#D*2~l+g
z>>{p&_%Wb*a!Qnf$>AW#0p^rxX(wIJ6@Z?wVIexH16IHzy#W#_K*iRi6paK6=2=S_
zV|bjH^fQo}=p2*oFfoF|#964adV{Aw=sSI4fEWRpB^oypy+X-Hy9V0nX+qBsYy>im
z3<WKE0k@^sflDl9T$K(2P3@BZ4xNhD?8w`E#edna9$oP?UD<GX!><lq?O*6$_H3h^
zmWQ5A0CyLUs)y2Dd6)n*3&g6g<)Lr8=G&e-xa`}d4y;;TbK7UP&rf8+*{-FAt+|<p
zod>ke17Df{;QX!gf%PNxV7}$`hb<jiOUH7{PK|9+`_j|-me#BL7xrgEpS+X%!R>9=
zx7|5;b4Pkw?E|=WdDJ6$msfrNk=;9YZ1z~jnEC0ly(1?s*}B!<RknWqw8n18^WOO*
znNxY*Gyhhxv!zev-Hmy7Yu?lRHy3Z>*6NYnHP<uSGrw)w=3ip{(pGRj3{Sby8jv37
z`Uvz;{WB>f7*dR2Oc~%~G6Kz3R3?@1S5$$Gn8k)+Mk%X|m7%T7LV^iCog&DjOcfey
zfFD$HmD*~+pRTRAONy(|R;x}ld@pTg#Zj^vK6*~~&RnvbK~a?Au{q`{&3X1N!5QWS
z^V`6#u<E~cYX8)-S6anWs{{+&sr7$yr~jFCHr+aVim5oa|FhV5<qbHfkC=zV;2enl
z6~4D9g3yq51NSkFTtLzZAtZIsp-mBGB^VCLVsLjQu}6pa=o6?4E7@I-Q5B~<z)M|J
zlNm~Rs7DoIf{sEwr4v#&m6>KlDJkpNNKD~)G9d;m#QH2r5l0z7gOIL>3xIk;OoT;R
zv`3T?VxLSxI-~VA{d<6w=YwKGpkqrkF%EwOfX{?0puhB9!5mSZh%2&e0jdn!1-N$V
zPM5co&cKwPz$0JPi(sfCy$yiQ^^I!(N<*`HVx`Wf9$)eJ)T2-A$kTAeaoMrL*F$M~
zV5z<P*N475cK6uQk3W23Vm+MN2UDDNbAz*kD}bE+w|uw#*Zqr=Aaru-VG!Ef6vtQi
z#*F`#czf*n*uBFbv~lXeC-unWOh+>f*^RlG#jXeJ0mvQ{rC0oISI;b*`D9Q%lI{mg
z{@1Li(p9Ylbl2-{)vHHW-M&{k^=fs#CbfUn;r;h~w^#fAg1tPl*Qo<~YJt*%#+=jx
z9dQ+kh@Elxqnv<0CBm0R61{t3j71e<2`3Y>B7QtB=@kUwPKyaSDd{1p-#@WQdcXuD
z$+&PG>Dv^dg@1c2DNMx0A4(xm2N8ng%h0VE8HV`=+5d<fe?l8q81pYST->l`c#S#1
zKmfhA>1uo-zGl%$Yl*b!q#d=jU&RafI|n7#jmTgxuIpvmnb!G<EBG>ALom#Vx8v92
m`fzdLOMDlvQ||hQ3}PJL@iB&}`*z5PT>fQe>qVPx@;?Bstx$3R

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_355413.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_355413.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b1f6ddfdf96951c6f334dcf556e505ae72bf6a1d
GIT binary patch
literal 4516
zcmdT{UrZax8J}J6uGikR!Pv$S{seMqQY#`{Ai3l&B&W;&Kp-dGHPVq(TgSVA!PsPX
zfdq}!O%<tdIu)#Yz^IiVQl*efq|4)-bW;1?7dWEUnx>Ma%R_l{4*F8{q2H`+a9l_9
z??VT6=9`&szCSbb{pR!UJRUcKLT-OCvRs4EceGO~o+7d3We{3KDpHv^8Z5NTAY=F0
zamOIXAdMNd<&>5dT9wtfQTg>T+EX2G80V^w4+$#&fO}FDH0X38`lm{&prO&)D)OCg
z7#H6#&T1~O$)$3dYe-gI5BNd%j<@ayXi#F2Chh2#?=fL{ld2sc&U4qUpYKx!h*%^B
zh+Lp9^k2Vl@mkbXW}X1F1HP@iy`d)5g)+*PsNGg&o)qU(u01%}9ZolPVdo5wP)fpX
zEK;g$Ew?MZM5zoGpA@yvz+g(o(w-}vudVQ459Y@}M#_t2?69etG8xqCih>#Jq1v$b
zsiPz-Rcr3-6?T?9x`2NC6Oin~J}gklI^#lE!ajR-L2DhZGnmf;xEA{wL1xO2{n$Z0
z$Fl8FU=Ldm4%pIa%4`Yl=-|pE)t5=Ca@{eD>upIvOl8rNhQgrFZgc1!3UdQG-RMnv
zs$qt3;}K&lED+X=6ZeFk9M&V_N=zj}M2{qfHNwS{5tZ<T4sV!AT?>bZFs;RgM@-^~
zsRnT*Cru(6rXEu@WtzB)6diRZCdU;sIi@8Hof@Lkv)5r$5OGX^79J`^C6ZxAbhE%n
zgyhhW0fSCh2bSC=0yR-Fi!DrmQe{eu5++7mQ;|4`09GQ}dZ_LEv;s1SgYxi6N*f_i
z*;c*$^;YL}QXexWB2le#BoZBqm?OzVM`Tz_n4N|m?KHLViB9NsYU8&xRgEQv74X$e
zCX_KvPiXO@6ZaIDE)7PLunpZOP8>hh4Kt*6cU6I1KM1xs;WPdQm4&tgNb<~g%ynd#
z4fj6l{0rGT-#^!%Y2T2Wt&6$3U`9+IwfeH2x`kWop7vj#dvx{T)z!$e=8c1A*F9&g
zOIdH@ug)!BUAnpwS#8*8?ppVDS(kI3z`_i$!?ef0FtYAxwJyE%*3J*l4KGA9m($~`
zhn{<nS(jge*i*kyW|^!c&rW}OIxE*^gKaCv(#ooPJ<v7lB2pk5YR%k9&&*!Q2AVT>
z*8_)F53L8@p1t^@F0gnweK>Py<;2p_)v4!o@64VrU;OOGdf+s$fkRj3t}J|%Ig!4(
z^4995-^<;v{K(s~1^y!)@E++DK6M{d(egNzV8BMIZ5ydD8ij$%qB3JYgw14o(a#vn
zROMjHIM}Kj<ucf6I0%wy*i;nNL1P{4sy4^cxuJ61Rrzkg+LVxTf(9BG6{Q6CDG~El
z(4_aqE~8?J+HH67D#e#^R>KGpb0x&vgVTxm66X*LZ$RleM%Y#G9Z-~o9iYcpQB+3>
zKQX(<yoeo`!~9e3NfCV+gxQZ!m><}rTdPyQZQKeAdL5<xv<lGbbzBLHgiENgal#uT
zkqM3PfIwQD2!)6xH3{vmsZ1oNH63t4=^|WIjZN7hNrVD$h20fbvO)u46yj8saR~Fc
zZ2{qi0s0KO&ASMrzXe_5+6jKW3;JRBj675p%F9Tun?F5wI@A8G)U?Jmtw~K;$vb~)
z?$pAaPtUAz4YOye_1~R)H{)M!Txwi7w$!{b^$0)2&pvqg)3t_^-%2OfxRYzr$(%2=
z*qm;@-)ntfO=o?9#m02w=S@~`&goxsHoXY7{2|n_9_m;f-Uz)jE58IY`sVsF?v*PW
za>t8e&$-gPAs@{<82N4M!nT0;;KIl2+`g>n&59EJ2OTZxmdu?EUwhVHzxZDIy-eiu
zGg*I2wl<XYHD-hDfAPC{AzzQ=8mm|T0XQ9nZ>P`$wL^OZYRKxC6jIp~qdHQo%B398
z=gOYBD&b{c7<Py;cSMfT$EBjE{8QmcF{~gcc2k{lm?^Ho2$xH%5@5EpqL!3UCaqeC
zvHy}ZXIWtJSg^fwmMmvb3;_T*s|8UBAh4)9d%%-2tNvTNwj1(QEZfs6ky@p?;7r~B
zlQaF#tdnf(<P=l3Z~td^W6u-tP#>`faOxe1{TbpdhTv*!S}?jvZ!Un~q#6mcgjdab
zfSH1-O~s-bkxb1nm1xA!lw;+cE*pts+Yn9V!`+*ZWxh6Y9MG7DlrcI&oRC36>SPig
zs_rg3qf`^bIRyEo-Jj9)q+z2Z;iK_nLJPZydny@?+*XX(j7B^=P^wUPuQ9YclUgFG
zDRC_^Y>p6lDhZr+9tkNRth}vg36-XUu2^DX(geyV06R@Hz#h$*jGKl*-<uuSE}*v8
z_IpR4ehpZD1fQ`C{sDB0sIDI1G!U}-bM=kZ^_)LwUCa4`R`0fqeD#Z-v?nJ97DiXz
zUpsL8n~T5c`?_!K!yDT?=M$`}z~c4K-<-Rd6YCcGp9a5ddED~V6ij*r>k>>#wev^j
zj^xBprsb*j<@n?A-(G@ANwCgCqR4w^W10Gu=GB?6x}S6J!y{7Tvo7aa+Lk|A`s9~4
zt;@6hfYSe*6&127g@EjU?N-3*eOVja)2Y411skk>NH_mI-{nf*|G{1n$$o3VerduE
zJ7L&tgF_n#d-Su=>PMg=HHAFjXdHgrOhSrJ#1f^`i$ENsF_XBW$%J8QcPI2>V(>Bi
zeo5-^YbRmaH`KlnL@Hb%WjGmEA0u0F;r@s{kQ_|LwX^ySkV)Sh<7=qkHD#FZko-sF
z`4ei+3y2kezVH6NJlo0~huz-az8qhQ=RLINMQsO`@e<D0&|WP%c<52j!=CSb(A#n#
zRxYf$!l2gu+19q~fkUsP{Y=e*wir*x^9abSzhSW_-II3!oh#Bj(4e)UDet6|h#H&o
kE=svkOWPI|u=OE>7|-|OD8u+)-EyFsmJM&~eaUw1??W}bBme*a

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_429595.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_429595.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f9ea70a1968e0ddbfb58544553c9a3ba8fcb310d
GIT binary patch
literal 5651
zcmdT|TWlN06`kc{xqR%B6h%suB}WPpCu}4u@-t52yevzyV@YxB*tMdXpt(zm6d&^L
zO0twCum(~jLIa3G1Bh-5h(SLh)dsBOr%F*YN`D%pKiV>_g{=b+h(D@7C3aDuK!M&_
zaw*!OqNb0J4!HBUckZ1#cV^C=;qPhMh9LcB<`*N^-3Wb&8+xM4mAexJLi314ERjG%
zrIHvTw6-B>95NA@W=NQm<Pb?9j)*h5imj40a;CUztF6~q(>8STHgs|ux@8+WRhu4h
zu+}$C*UM%MSy>lr<50X_w`;3p?c2~ToSmiMb8uws9)3{5(zSUoKJ%t|$WigC^G!5F
z8xTiVY+|N}fO`WQG7unCYH&=9rBk7VYCAW0?8TRYXHE<qS1sMa{=x3!r&P;Jrv{I`
z92`)oa%DhuOr$Rb1u?{n!5FLBaEnW^P!CtHgBA1};k$bd@_8h}T9;DXpx3rambhN#
zXIwk<G*o)Jcj#%X^sJNIl4IJ8P{t$GNwik0mpoPSrY&3a8cRry>t$P~ftc}1^*c(?
z_euC9ujGM|L3$K4Wf~-(WY=nq5|Uh!5nF<}(9fjTGybYkNZp#PQu0d;EOEnh9eWp2
zrm3nwRiahrQj^5!R%LeW*w@J#rs3>XB$}%vv@>0;8!QLyct+ALsi~$#wPnhqjCO-$
zbG0PahsVz}Nlmba(GLwQiWu;Ym(18hk`Gfcy-X!5eru_+w3gopsYUa3!vlI7@7FjD
zJCQY4`FA(0ltmlcD^a+-UtZJcldL*t%Qno(JXB?s<9^@amSm6~(lqRbRlR?{HSD@U
z>OLmW6be`dc)US3@Y&hGwSYl2B}2lfYEFwI93KUemI4HiQ8!>w4I&)$F+LsTLrHvm
z$q*k(MLE@!NQYR}8W~R{f{EBDr<x~00ThCm=D9$tYKf&-?g}TU<Rll1j)<x;Jua#a
zLF8jB2b!(~FWuJ?RC}2>DF!E0tKMKM^t1>fdM9XXNkD_;@sZ@g+la@D$y;!Sw>OWG
zMKzDbSP<6=p;UnR0(ZHDOsa(~SIBfEB7p8v$*L6gPY^n)q*h~LW?=l7$g5T{J<6qE
zE`n+eCql`wU?M%K+Dg?Cm^92ih}EeUE_o?9!G%GqMi5%Trq&(O--kOV)BLC~77BBn
zBcbqUNE}J0Izmw{C3XsYxKrekW1Z0I1nnHl#!}HBcvnoPf}<Rt;u3qurh>rMiQzOj
z{=mK?2ag;Cj_TTyDs|_(z$ol7;bYh!GP=hg+Bw@l)1PZAIGW|-w;jy3t)k1Dv&=c=
z6YGp8JEAbV<=!Ig`&r$B|C&GFm5&zudlh=G+_O&Czst{0%}wRq`MyF!heCJAJw>NC
z=g*&4{OyXfL+)FrJ=v&2w*Z6j=FEAA(%7yr?TZsD4yChOVY=ns+pfBK%bX==$&W0D
zK6gDOpSS}Q$DAW~VbM`=9h6Vpc6;WV=bCe|#ir%Z((Z!$DfuLpqUI<VYgqAjEgxBl
z6<mGLwL*?BcfFTV{0En(SC152{V*GsKX*!TJuaUpG7Uc=atCr2g=x({qcD4y53M}%
zTVmz051wDWpzI$|=s~&XHshL&&P213+{9dZvG2pvE2ic1O8e1Oa#j57^y=g%PNjWt
z?flT^%<JGE@YJZnwB;j<Zzy}7{?&^s;!3abXtzRle@d>M9#;B>*DhZA1Iw*l<dois
zLPuZ#6Zux()xNjSWDm^@=MFD6e%Q8rcKI<S@bt>L)$Y&QR(n4RDuGjfGWFkubws=m
zXAL-OgiIxQP8{b`VSGyTR0kC;?!E(nFpne@*Ev<?Fz_<w3@H)YaxEE3GRd7{Im#du
zuMs09vqVZ%#0Yw7B5u4!Ji0;X7?vU=Q^q9Pb;DSLsNW4yt-GE?>JhyXovhzMn)-&c
zO)^)FSbcjbn*_77>SOKDlag$D&xkQ&7d`r{B)b;9kOZ@Z)$r={t&*+WRJP%pbj!id
z-!5O9za?+lLB2MBCwX(lK8r+2R>=lY%?Poo>`?+qrZYHNEg4iZD^87ZD#>yau`svs
z0(e1-VLaXiJPwcn^4p<5V27YI5&|V=2u<M;)eNvHPVtAZg2Rxh#$+s|k|pR=ohj~$
z7#vGaay&qFaGz=lv#|*c8&$Ftlmd>bgH;JJr6WeXq!MRp8Kjz`5cvdbaW(GqPhtzK
z6)fiAhJ)JS6Py|duiNWpkIo#u+AY5*UtVu&U1-17u9zC+lUYmg?D@5`!FL{=ePZT`
z?B!fr?tC`Ac<$!#((vk@-*tS_@kiS$Yut!@><;73KKyRvmakp$wJ)A7_&N*BlYpVl
zy6nDpCvE`<H*_pU3k`<~&ckwF(Luj6G5f~M8@aArwBX!xgS=^9vM=|pe82E`&zikg
z?!IHH&z@CGP3x31>&tndm}O>|?BxRG&mCTP?%H#UZG~O!>l8Cf&(PUWfoja{S?IXd
zu}Bn}zPC=<XKgdKY}b$ItS~=4H=S?$aV8&rKmJ~P+5Pk6x~FB`)qsC)|GKvgnt%1$
z&E#eyayaFa{626@7`{rvQC>r@5y;_fNMzszm?2nW#=x2~MrfO=?o)tb4<^Y7r_2x`
z#0sMpZo&PIyk17ljJZl<Efj;3TcxcAqG{U7=$Ij^wAH%%8orY@%NFWrSc_+8(Jd!X
z3;{}8;?BxsD;52<CsC~BS)f)~_22SZ1*>aWwxd-Pwu-gFn%e#+Yx<vAXV<KAWQZ!i
z{h#fP9an(HbCf7RW@aGv7dUS*1Y2W62I>ahxqy`8Y=}RIt9FqS#9%liaKWzX#y$<a
zWA^~ts>%B|&;yhM0g8VbYqG$51Fp8BYKCn8KGlrdDb*5z2Z+|5=J>Rr!KP{sC(<b{
zV8wqjghTMBLu{H;=?b<6*;rC_!c~5pONF^$f=flkk*YU>HI^D1$A3}?Rd*%}&k5rR
zQ4sJmqJrEd*k-g@R`l~1pvx=p2@4u_Z&IkvC!Z|VH^}`(pI;s<dc5+fqT4H<yyrk}
z-#k4>7peMeJpcUK!v}tS{NtBDdU@@YbN9?9Hz}WhE{tdP^_ka;R9&|JhWBR6Qp?H&
zFd0(r0jAxBfxk#K<XUcUH<L@r)gEBlN%`2ldSqtaj^%v$=Edoi{hynj-*h0STkb8k
zv@Tq@cHyUR`+U0}5d2@W;sIR`DgoW~+O+EBlXqO+9VfN3I&Y)ge}}I7_vY?+aPHr*
zmqHGYJfOvr05K47YWs{oiZ`3HbP3p-fH&?qJhW6wukjc&;gT>l2G1-WhaA-ykBRW`
zOQ!^pyE4X?uLx(kl#u3CBkWdfQ)-(+wU>5LFq%%VOGq2Lw1uc=lWBH5!9B-^K__e*
zB>V%iO(Q`NUn0k!5&Z>f{sQgVB$0u7tLbXfrlFM>AYf}f{K)&w?=^2)%grOteC+th
zQEuAMLv0I*Yl%&}#<iitM}C?3V5@nCc#XLA>P6+%i<KTpB2C;%Tu~BNzSe~98j-<K
z8tkhcqJeN`$LFOvX%j(p@ilzQ(5jz$v|?@O2c?ottR?wd$teYX?6gMPM5xzr%J4T_
koH2Y=D(+%EcV8e7L4Qrf3BvQ$un{?13e4`ScFjHi1kE_Q)Bpeg

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_43398.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_43398.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..83bd6a34eeddcc1294dd81fa820c222e26b7dbc6
GIT binary patch
literal 5639
zcmdT|U2GHC6~1H7*y9<G9Vc-D`Qfi<!Aq8uBpVhML0Lke5TLuI2tp*wcqWMx#||@-
zK+<tFv{b~)gAJ;LQ7aLos!d2FK&rG<s?=>?_MtB^LEUIdB}>ag^JX^mrK;4PJNAqx
z*@0~T9(pCuoWFbSIrrW<-@X0=$1w=nXO|xgh5`tEff=KD%fyO<K<EzQ5l_TXZ|P0+
z5<2e~arTk~5{Mz)kI}XC<{bh#WO%Wtc&EL*pXABw<XqXZ*UeJ`8mh8%ER($JHFCG$
z;c57JUZZF1<^5isy-xNrW`^GDsF!shfi+|CP7on(8IONjbAQlt=E%u#k3n=reU=zK
zKs({L@^=TGH5ulv)P{gx+jwHGtWWvYv2+-gig%JiDCJ+r-f7x%x_y;m?Ln@M1i|Vm
z-nnv&lb}uolq$;@_C2^&J*t&}f`(i+z8xDuI1JuXHA=O@>Qt?Q6rbY6(c$r+FKN)J
zpk-wGtNxUrQo|GT<Q$%9XhUr2ZGFlnW48y5*-6zYb+GQ}#||F#>rsM)Q0f%Qh()Q!
zdTdeBD=tHms)xSBa3928r!Y9DNm$L)28eByN2PYP2W+Km&}}!alV`oMQT7{&RCY@x
z^HhW4fLU}KF)4vHW7DQ)Z5|#&lWMd?Ve`EyjY`AU$!VT4)`LJ3DC9aV;_bAIcla`<
zLJo}_iAcj5m6QhsF+_-XX+s{(A;&dlR7?(tk&$qW*IW@Xk{A#)N*aue3K|(tMtCqv
zYE&#Cx3_6jKS*Ry%SllPHEGTmFKMnTLTq4A)||;PS@TM=7~=(SCWSAp;^LaWtSi}v
z$JYvY(;hrodSfoWO2=!&IgRKN@h%kc2cl7<F&?_;uXyPN=_LF6CFoju1CJ*G^ZJ|D
zXdLCJEJ`?$tB^>EDXGWxNzzDR<dUS(I0kGfHNj|G-q8MbvGqz)9F|5SQK5A(5*?1n
zgUQ4@kpUqgw@PBPRTf4@TY+l@#{$pC5(8nFGC7$D4+~;Ki0>Yq2!q-XMw2j`9qsM=
z-UEeJRq0f+7T<w*@P{wmhvin$t8Iw$XHKP0<+d(*o7AJvy*`u6UCDdjvK1A$>Ysdc
z=fbTExy#c#7K3l+xwqBsB|Bk(tI0<1#BRl=iCghJw+)-sWFzTbwY%W2&VDb~mk);W
z{?JVKqrQC0;k^H_di*)#&Fo0;$nKo3o4Ndq+4DKmk!L!7_0cEiAD>@j4ys3%81Cap
zwsvYD-J%{Tx{${YlB_?^Y<}q^JX;D(Rkrr_<!pVrHFqY@?0QK#JS{~hqS&Gr!Jr?e
z2XpPyfxCP2+&3T|HgJ1u_H1@X`cUrNbk~Ee)5q?H^K8q^c%FS%?Rvp-nZ4<~+0JQl
z{^+BvbH|@yX@O>!7=N}U&uqd&ZiXRm2eMuIkUe>3Cmu2ck+A_Y5?$<ef*2y<UU?Da
zzH$88@u~A!dHSsfftjwE`unYqx}S9XKJaAk<1_hfNB&55t-wklu?9bC;h}lQlb6Dh
z91&&w`7xLi5<Jji5UX9HAdiWOC{${*;X0w?+%MpH2SMF8RTV<UpS|9OZ1BUPwZV*j
z$2gK4C(sWGg&4BI0I0k>VZW6uNIL{D(3^MYmYWp&(+J|74LE+AlZs^or{b7|GY-UJ
z)?*_#z)lmLha1e8Y(4hDjHIZP3;fuOr)%9Q8X~npwAJ~Dt#TRt0RQZ&Hl?@}y59*S
zRRT3BkXD<FNmy`&<f)WL#>=m_p*n-AycOC+QAVLGwi_xo1_iNrjI+WzmbAhcmi^8Y
zD>s@xSbU0rQv;!puwKoEyz;KB!)x>|BVx$^&He55mHy;9{q6PZ^*7Ih5Z@d3*=zI_
z{~m>zch8kirUX*R@1hWWT6Du?m0<ZF&}JPP#mf_bu`XU1k41&$Z(%+D8bgi>tcCpI
zyCBjiz}x7ch&P)K#ho1*nc!n18kHCu5#l0;6{HlK1n35Mktf7XEOC{9Me`?ws{mig
zD}oqK_J`XvGRnusb?DGsB~T7|D^*Esh0fwP@k6gd#0MJDqY+_o6Bbo4mmC17m+;qQ
z#Y3?L1e(VLDzO{*_uwZ@=?GQyA+JBPFTL+)!F!E&8-FhRa`^u6!iKgy+qOWqEwF7+
zz%%cs-_LD*$~G>LjSFn!66?bqZkA*@>E6WMiJ6+2ZMh#js`+H&<Bd-@?_VJIFR=TU
z*kI0^XSdI|9<sCSqr-E)r)=i}*}1@W7D_&@b*YEd%Xo+b=>sLE;AU=2T$}jO_p_0w
z?)vAxn#^!|IJYMknGWPaGo23)%pUmE^%?g&?wRlOl(XQgQjb0N)qd{Vp7(8^{&3N^
zLp_Eui+N7_GHja79?o7_q&KhTif+>DQoArp1hZ%JWWy2w4(-#QY=%iQ**!No;3}jq
z!=<@wWRczgb{5)VVo#QXxCzcHWL5oARsCO^{gkV?1*Ts;A?}71iNeopc!T1#T^WQY
z+&YOARM!;2J5vsxOgVukEvHozU(EhUaYA))^b?lzzYX^A)Vyo1jAtpz;?V|)aK*8B
zv%@0ntvpJ~W$|WnD~9v>zv9g;<F86@3a;olJGT)zfno^I!fjV8475;a-hBZ2TcY}J
z&Dt9yTQ@2iN5y+!O_~46n*L|ev3hjg6k(aS|FgZZ?h0@?M}-Dt@STqR1-`c!f~~Qv
zf^-@0Tqw|Ed_?TPBr6M&9F9gLA-u=RwCQLPdj&<+DsEp!Ya|^ZTEz8NbHn8h?i+F$
zM=+Pr-1?Oc-|Z#^F)8WQTBD-zWI})oBAiI05jde@WZ}$`9>&n)mxRk>LLw@J<3eIU
z9;~2-=7}Xn;l2dmpr3L}DB>0cX)G>F68@vc1dI||`1Bl2|6(tgjKWX4SAq;0RoAH}
z3bpm>sY2aG^-Q5AsP+^BLG=Vw)Ii-G?iN>|YqLYshZeSV{O0IyPyYJk!gtQSqR4<t
z{Wh3DO~07FSfH!3r{;qXn`fJ!jDynWQoBLPR%LdjcNOURT=Tr}aAbDm({50*F7?Q(
zT15G#V!68MrkTkn?a#<V_`(rTj}@A?+`Dl1!cQ-%$EHp}HUD~1tnszh3HYwn)2dZZ
zyr>GUo7DR5f*aIRFSzP|FL!{d)wzEqUK)98)YCeWggAYRi3jmM^OuetyW{X*!Wdk9
zHQJy=eRDg9VzTCmCKHk@Tpbn5=a92PLQ0Bo6Ne3oj|}=I(Ad(h2@fRW{4CPPDs371
zz(|rGiwg%ujAF1&kTeUAqLUzqFOc_7i2E~YDiH1)4c8iqj@`sjqS%0ZRhhnYU$IeV
zo678$&6r(rB8RtZc!}6W_?JAsOjEk4=mfgp4P<)KJw*y=!1|iHq8n2*3e*-om|_s)
q*R5I1d6A2~(RZzHg#&J7kU#|YB|StCH81;|$ltu^+jNc9Q~4(!c#Cxa

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_459432.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_459432.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..366efba720d32855f496db9de41d037f5e293e10
GIT binary patch
literal 5651
zcmdT|TWlN06`kc{xqR%B6h%suB}WPpCu}4u@-t52yevzyV@YxB*tMdXpt(zm6d&^L
zO0twCum(~jLIa3G1Bh-5NI^d$)dsBOr%F*EN`D%pKiV>_g{=b+h(D@7C3aCDK!M&_
za!J~uqNb0J4!HBUckZ1#cV^C=;U8$)h9G_O)~`mcyAk>lH}pi8Dt9Lcgys>8SR#Rj
ziX|~bXl+B%IAkI)&5$rB$sv+J91&-96_t`Ta;CVe($;INX&btE8#=iS-Legxs!fkL
zSnHdn>m@UWtgMT*aVTD|+f^x9`!;k7XJ;w+92{A@haZ%%bZs7t&%9|Ka+JO5d=m}P
z2E@^2o0usg;NHZB3<L<38XOa2=~O78+RhCgd-0{<nG-|DRZDlUf3W-bDb@1Qslj6}
z2M1KDR2fhm6X{DqK@9O?FvhAj+~QI!)Wg;5U<Lg~`0k#Ad>)Cg*2NSz=(S4864y)o
zjBAIUhH_8$4n2+Ko^_I2a!i{M%6OzYiPmcMlBY`ERIx>`v4rHfUb1x>h#9X`zoP_w
zpM+2HN*)*)q(?zhra|&acCFSZA;~2fu_c%b{Y-j2<F6Wp)UBzMl3!|Ii5sTt*t?K2
zO;!D=BCR@?nj}WIDzj_HzE0LK4QID3(Oe~=o#|@bU^!^VGm>^mO*Jj5EmIn0v>POw
zt0l2MJbtE0YJxqCer#Y-#DI6aWX2wne3**qB`R6=TT7Ltwfsg%Et;<z9?;u(zs70U
ziLANGzq?_jEZW#!iNfXm@|sScWYswp+b}2dP?c4V`+bL7l0kY%)36&>_5S(Ru<Hh?
z`<OseC}0`j@dn+*XJ-@F0tVHT3<;yEIW3NGd=yAp3J^R--GD_kh;Y!y_;i#HCGqhk
zLwqO|<y2E59b#2$WIT}wCSs$UYMulIPzYk0=K`&&C6;2jE1aN`lUyu1BC5vpxTrb=
zk&m$)Xu1--bYDwQ?Iqr%7@Sb8dV?*~(;|rIouE;XfCkIsBguoe5sw#>x8MwKZyqCy
zY95QRAg&ccu>kW0?s5^CR0~_Gkm*Q70NursRVnPBAaqnot;WL4!1ytdSFK`tluN-}
z1l1Z&gpy;yM0!%S6{{mKX_$Kut5Ypp@=|bu3xigTAhd!_tvjS|hC3(I{HQP%3Ui$!
zq3~!(97(4-LQyUyb_#sBQ{<9kozUt8?HtR-QqdrIS4^jZqa2^&5_`v{g22{^;WRk@
zz`-L2_U{9Z>Z(W;yYpRO6!w_#F>DYS-D42#ob8|K&$Z<p&GPZv4rbd{!R5_a=A810
z4aSolQJCFwZ-MsxqHe)|&A-^S7|r|lD)e5tXM?VPm!F@Sn_6@)_T?Ko6uLw1DLB13
z|KfSY->x`2<h~8slZ`5L3osaO&b;VQ8rv17eQ9FVp>%dDOt;*7+f_GjnX}|9iz6$c
z&s|T+C++~nG3Ur#SaRfD2jvsD-Jbd8x#nDKsc9v&ygToHN<N9Ds5uJ88dm&WD@Rsi
zc~>8FEtBIbUGJq7|G|~%wIg{~Kg`DE&z(|SkIN?tOvBHJ+<}}$VOkfTQJB3ehgKi?
z9kKe@2hXovQ1%Zf^q|~xn{mxXXQJ6iZelLI)c4`(Rny9OrTyp{xh8&gdTsI(r_w&S
zetzh4=5_E7cxqH(+7=^AZzy}7{>_W4;%cw*XtzRle@d>O9#;B>*DqfBBg?H{<dois
zLPuZ#6Zux()xNjSWDm^@=MFD5e%Q8hcI7c8@bv1rweHW_)_Ok*DuGjfHuc|ybws=m
zXAL-OgiIxQP8{b`VSGyTR0kC;?!E(nFpne@*Ev<?Fz_<w3@H)YaxEE3GRd7{Das%e
zuMs09vqVZ%#0Yw7B5u4!Ji0;X7?vU=Q^q9Pb;DSLsNW4yt-GE?>JhyhovhzOn);Ts
zO)^)FSbcjbnFO=5>SOKDlag$D&xkQ&7d`r{B)b;9kOZ@Z)$r={O39XQD%<c)y5->K
z@0PF4ugIHrkgv_(N#0zx&mvKhRkA@;GeWE?d6Yns=?som%LdiVic@2pO0wKUEX-}b
z0AA2y7>{=Wj{{_Y{BGzE*dZv5gg}WILQ{A|H3MvlQ~V*U;4oyWF&Rs#WDz=5XNtQb
z2FKEq91l<(+^3qtY-~cqMwKiErGTUAV3k8m@rV&Gsl=ID2C1efL_PsqT#ftulh^`l
z8H;(i;h=W-1g8eV8}_={qccaZcFQlymp7VP7uv72E2akdWY$tRdw%_F@SR6zpO|?f
zdpXyZJD*K2ox3@_JiNB&_Z^>f{K@vpIyWL8yTiD%55F6^<!e`b?MtWgzRo=JBw(ns
zF1zpDiCX}|4IN9-e8Zu<^RV1kaM15e%)T-6My@Lt%{%wpAaB~2?JK>jKg>Vgvu^K|
zyYHClvu71k(+1_t`f?s9W|<i#dpS?}bB7n6yY}2tTYgvj2F1+MGjukTry6s67CNqV
zED`ypA8b(eS=)>)+w~JVE6h*NO)s|nG_x3fKmJ~P#r@0VhNor2)qsC)|Aw~>nt$`!
z&E!@iayaFa{626@7`}4CQC>r@5y;_fNMzszm?2nW#=x2~MrfO=?o)tb4<^Y7r_2x`
z#4@86Zo&PIyk0`hjJZl<Efj;3TcxcAqG{Sn=$Ij^wAH%%8ork{O9gc_ti`jl=#~>G
zh5)54ac6n5<%<5=lPK2mEKsYg`fquyjMcR)+tDftTg6&oO>O^^HT}=5vuoBlGDMZ%
z{?GQtjw?XpIZ6~DGcyqTE1b6&f~~PB19cPcTtLckHpCyqRlCRuVlW&MxL{XxW1j}z
zv3r1R)#Uw~=mE-s0L4FzHCf=j0asg5HAA+4pK8YKlxm5<14L_2b9`FRU{f`R6X_He
zu;M=%!Xfz6AvVpabQxQNY%Hld;VM7QrNUe=!KI?&NYxv`8cU6h<3A~csymZ~=Y;Wu
zC<yo&QAX|}Y%|&{%li2X(B&2Qgar+|w<uKSlTQ}v8|40i&o2)aJYM-!!R?h#-g6+g
zZ=Rl`3sikJzWDt5!v}tQ{NtBDdU^eobN9?9Hz}WhE{tdP^_kZTR9&|JhWBR6a?9!j
zFd0(r0jAxBfxkdC<XUcUH<QcBwH{#FN%`2ldSqtaj^%ud%}dj(`#(25zvVzqx7=H3
zX<fK*?ZVID_W5={Ao#y##RIw?R06u|wQ1GMC-1ntJ5Fk6b>2p~{|;UE@6Fxu;M~7u
zFNGW)c|eOL0b(HF)b<&F6mK?X@e;5%0dL%Kcxb7VUgI%l!X;s944zp$4mqkZ9uwi=
zmre;HcV&z(T@lW5DIv|PM%b;|rqnitYA^1hU^JazmytGhaSKt;Ce!SAf_sh+gHG5s
zNcab2TSkH)zC@0{Ao>f``~}*zMIr<BR@2p{Eki3YK)}{|_>uRU-)r8omYPSN`PlK1
zqtvvahuRhr*AiQHjcY@PkNi6EL8W<yc#XLA>P6+%i{&0kB2C;%Tu~BNzSe~98j-<K
z9PFzeqJeN`$LFOvX$wJh={0=I(5jz$v|@eeN5zs&tS9+f$teYX?6gMPLa5hp%J6qw
koH2Y=Ebd}GcV8e7L4Qrf3BvQ$un{?1^33k5cFjHi1Z9i62LJ#7

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_474863.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_474863.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9b610a3e7b12b6612033840ae585010f988357fc
GIT binary patch
literal 4248
zcmdT`TWDL!8J?q~bCGn8F4o0yEG2d}O%bW%jgw|WaI-WQr?F$Fw4o(V%0a7hEKAnK
zIp^3;%m_{(P#a2Zu@6>gAzmn~vkB}z?n0q`FNFw)R!mb6Y#wU*qO8-GKJ}lYixt<Y
zdwu9gXJ-DneE<K?{PWHHMwZ<O(w~!`On=XZ(3ezbr9iW?9bph!Ln>04EShYT%p_yW
zjvPDbWRS*WY@F8AMyWb9XGVInjY=x}mUidf?NhwUJ#ap00!<1oM1QKR@*2wc_rMq4
z(k^N))dipXE&UGYW8rgZt|`CjdB9D&+g?i#(4@zKG*8<O=^hjJZc+6UM7VJ6`o%G2
zf{4w^1d$rGOXJrsUA~rdb(qORorQ1vrM<8w<c*YZv}!x0$~<ZI7hU^|bhJmhu?q`}
z97078c4Lv&I_5fe&|5W?!Qzvq_C;tcO4zgS4B?F#GL|tn0~kdwmN2V2s8(C{bs$mS
zcO}eVnd-#er)&$c=r`LdhJ}`2m(Y)X2>1c)!2x?lLthv6<3JA}6oWX3S*jOHwils&
zG$S0caeN(`!)<hD2U4U1X^&9H4ji$O!kA*w-G#)UpWJk!dnoRl(COlC(VdJl#F<MN
zGjX0c%q(%w>V=e^$SG-+@CiMUPie%NEhJRJH3ZHu3%VBXCj5eyPEDJHO{)fB3v(tB
z4O366nzBIL%^GcW=jU>YS(wrChE5I9>3-|5D2TALpoN1>QHjSe6S~<LNch6klmU$b
z%mYjA5}ul<n9UM8K&djXB?*%zuK7e3AYdpFZ9UX>Zb1PI!qPEZf!2*~P}#S4`s?k%
zg@Qg~%qEiB;B+E6lQ5?X`GG`A%bSCSo*Xo_-0UDogIewbO;ywRlmfn*g}gGO>3J=C
zV)mW_-L1xC0hZzPd#BHyIR!n$zcZ^bTt5o72=E!(kXh(;2zlg{f#rcRv*|u)U3?*V
zSH_pe%l(^D)Vf^j3YW#w32Uq>cdg#8$o;>#@bT4;u5Khgi*6o0Uy;vSBUNwD&o4Z>
z`ta&{V&lMObg1GTvaZzR(CQ)#hi*BzdUw6Qge&q<YviTZzmi%`ttQJ?O1X_=&%GzD
zD=z{1>`#>?rW)>BKUq>X+?CMKlB*g#SUy=gw<K2m2g+wF{&&`=D*kUQaW9$>Q{}l*
ze&ft@@6Zxk4MfX#N{81+EB+IoMJoRHV3_D$5tqf);Obndx18MIe<u#Ul94w?-9|bk
zOC5L~5ox~gfzpTo*gQ9tw7d!%sZ-idijcLE2P!sQown%;GnrOTM|qnbe6i@lDANr7
zj!x9#%%U3$R@kJmXs66xbl_?o_oC1-veTmGY@jy2MHu^x1UhVuoN^RBCiTfq*h7f}
zC<tLEcqTWSJBl3w#?F2E-I&8X7M?nuG|7tr)bFD>+c^GlUhe{6JxH?<&E7noae;8g
zbYfN`92{XSOZY~}6JK7tYbvva1x<&8r3?{gQccg>F-`c!$&X7ro2wtA*k7j^-OOED
z2%``|RdR4*vbGh(nF1Cu=tbRmSoL?Hfw<ZyNgo24A{%RvS*Y$uT?f{prRe=p>)X~s
zH4s|sDfN8VYmL@~;4`83MR)A?-2;{GfsNE=_n9T>rPQ@DwmepLuYYG#8hFu^g!SmA
zbfV5O(!18B*F56Ft2ZjngH_R66+QGH=w6GJV&yxVf&OYRvUaX?uAKPrTh(B!>hG=w
zdaB|6zXaVJUymTkXN~G#1KX1DwG%z`beXrOA%|BCQ$(tx$f#`5p*o8!$j%OGr!2iI
zVHP68F~yke_6#M|T}kDh@=uy^UF13t_lj_cw+^&DBHKo5YANy^XnS8h{|cI5wqx9m
zR_dM5vYbI_IK^1VP>$G@T4xxGsxS<F9ajCfR_z~Jwy#wpwMuotp1S`hd-|VQ=drDm
zicH74{h!6gzB?dOAF&9G=bcFZ3C>#@L1=7Q(7Ht<7kFz<O~f69Q_XuobG)j}r;{4-
zn3`cK$%LUPCp(29`_+_w4fjrG^QkR(S-sJ6IxZ3po=M4RBEYK&o(m@7AUic=zoOJU
z5vJfxWy_12UNCGjBV00D$ZK&Iz5kL4xDV5d8j;(Kr>N;1@fq5kIW3>ml&qFdnbSMu
zN?hsu?3@XAreWWyHraxH&6vxYhC#1@HlH@g)NA|M#@9z-$aVOPN8k@Is))KGK%b#*
zYrGcev98yGVe48g5Vl5NODGUolS^_<46SC?-+y-G^e->}YV3=#XW#w7Yt9+qt*bD^
z8(g`ye5)pQt&Tqpe;Run`+Occy}UI7ogV+n@#W(+vAZ05s(qS!ocr|%bb5H}B0PpT
z?^3!PS&wcketzn?^ZmMnd;#l9E!Oww=EIvmyJcNj8V6SX=d9R;wHpMmL$+HXYxJc*
zysuOH!-Wr6<M5pN_k5Rj`~G+Kibx7t6ZXv#XLWj?Z1q7l5tsGzQ0m7aBfiE}eIg4F
z_&IpS60ud&X&?|blQxMfS;!lvc6U~9-rYCgjb6~<MV~kAh_oYucp4$3qzYN}F|rjm
z;zt~YTYE06o!4&wCd3RfehV4go(%IPlKz0?KcZ-zM-K7F2k#%OJ9?RSVYLtUKgvGL
z)@3SrQQwhA_#v+QsN_dSk9|D+(ePIRkhWRmkQ#GF7<A}x^-y2+$gx+xDC1lG=Gt&+
zxQ?J&jr6W%OW8UL^;-0Bor4lI_8zJWv?iiZk3H5!B{w?ITldhKgnFWNnby20*0)VT
bw?`So$X|&Wh6%p9%_3iH(|hQ?$9DH`6IO>M

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_477598.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_477598.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9bc8fbcc7c20e16c05ca33164abb6c4c39d9c73a
GIT binary patch
literal 5485
zcmdT{TWs6b89tOqiV{W1y7?kocHL#E)p&7}I7{88$y(>?+Rlm<4PqM;RFSr2>*A5L
zU3(PDY%LOD50-%fR?q_RfB~}`1M&8<3>dHs*uyRllVW2LxC{``JS=Z&lfCR||Di5s
zRV5yFdDsCY{{K1u?HvC6zyJJ^<7^1VVC>WB=iLZ>hMDT%D#T-&Kxhr|h$mubto$U#
z2%R^@&0{2i1Y$<FQ&lZLd6PiS*uOl7Io{lOev;(L56D{;g)xg2@f=SHXr`%w4f-kb
z7QxCh@UuQ;-PU-1($2FVP-C{*F6|$nG1i0xwib_li3mC#;ZR03%NxU&2Hy;gYW6a5
zX5`YDv%?XmAy5WrGyER^)`X8whC?im8Q|*&Pu!}kr=0spnrf0wic>MqP9P)_OGs%_
z9Lp3k`XTGRz|j+m<5tE0GAyTDic6tpVJ77UYb>?^Gj{yc*FC`5FqiTg;-bH5S#eAe
za&3AB@4jwqnX8^tK7*~sQF1leW~Esn^$1%aLPn3US&yyNV5LF&DM)F>a!LzNY>~I{
zyMU2uQ`!_7pBg+Z*zPi%e9Dh!m%&P^U1?XWx)-nRrDGp2gwmmVaYO2$4^2FpG_`>r
z#gBPBQ|7T3o-)J{FxYMIkthM)v_;oW!Ke6UjM=5{1-zIVeH=6JDc6r$))>#;TQ7wz
zDjt15KE=Idsh%2vmQaux6>;i3!kHQ*G>Vs(=7gY0BjaIdR-=;gv>;AZErI|UelIEo
z2@&T)kkw3bOta02$tf`$4@G&64vXQ$l%P?|f|!&v%VaDWmX96PNO<y^S(=Z7N>a3d
zwq_GzLR?75A$duoB$yR~of;=6XN3fql0tK`sM!{U=+v~V)0X6Xg^+~rg<?WNvnA%^
zAzcAn@u7H<7h;-yA^C1dlEb2m1F~UGNbs1pO0pQ`1tYomQf+qeh{jd~z|l)a=7@+B
zO~hHPS>~dA2m&Y*kz`CG;ZM?N@Q;tohNDbQPD+BTxhm0@*$@^sha(Zqny5&CTB5AR
zOvb`EU`eyqPC%m;!ZC>3a3)|$qZf5;{DgH$>V&YKd*=AZMBidkoR#Ln5utB79GMNv
z)5*j)!c%bieUcdIlZE(PA8>s_{9S?Pqlu{y9F?3*gk}XXA;b>PErnpYIvIh34)vcn
zaeUxqSkapHw94Y*Q3wgw6KNdsN<~i&Ag603o{nc<-*I%R=N~wl3|!IT$h>gR(pF#`
zMb@2}$g|x)dE=)Se|&Kxyxp;L;8dPHrJgBpuFU!Lchz$RS8MjwyzAhGcbm-zfqGRP
zDztWFm-4MWInwvgW?$(^_hg1Mr?%X;{hR(>TfaK^u*tn<UA1PrvzK?8zOG&@aLrkN
zp8Fb@b2ew&^3LbiujHMF)e8?m(6VaDavMy(^`-5FyKn6_oiEGx=DC9#1KZ2_L$BxU
zZ>VPr-oUy&@9kAbikv@t1y*yxSMuB|>bVD;bLDdSa%OD(VBXiWvGDWo9q;zk=KFVj
zcjZ64b$9VMo%y~?xyxg_+&BnBzz5R@GtJrXuI)K>uxR6SzGW@28o2KY=3T)Z+l%Vp
z1CqXW;p&C!mov+Gu6zC1#yfu|`yay@Be56$ARF{AMQq129eBnJnW)jCAkT}52vqyp
zZ~>*G*eUp5LkgO~Uw_@GLL^Vj_JBnXNL8w>QE*QxMW?8Q6Qml{{t1jlREk!Jr><I3
z4Cpq%Ai0J*joJ|$n`9b7KOn&Nv$Y%4V}osnaaUz}(zLK=8=qO-sP4VupHvUa)~ZOO
zYOPQTGihoZC(Jge+gqk;txl10OU-s`mD+nMObrXHGEM<~?4v_hb@)9Lw<(lC3+GYY
zP#DEpMX*Uzij}*n0t%~RBvJ^4guT)rX;RGlX4e_WE*D63SMBUQd9oT|f`BfEc(%+_
z)@xmuLhhsAczsXbrdYSATNT76kV1Y31?f={r`@KhjA=A4EJP#1qi?~S4y-}b9(Dv>
znwgKrH40!0fQpi)!*fDej{^9MOlwp$fzh%In@7GWVqY2;l>j;ta&&4wIWK7x)M|N2
z9KcI-xk_u!gzz3<V{%at0UJU`HFG?g0AS*y3wkZq=rXbe?Rv2g`*C=+N+BM{EY2zs
zzd?-%iGIxBFIkUXBc}j3CHw^$aYj6XrLDE<FAf2ZO-o_D?3Wyfaa~JYP5towZ1+7&
zd!h4%o5>r=ozA{(SH_>V6w7>`X}@mC_=~QVwT{(}t3&GR>SBTQuAEMv{zSMrdt>$<
z8_bcx92+dKu9cJNlb@WuIdWrU>-g>0HebuN59HZ_9669<2VnU=+m&a#cG>P6*_~s%
zix!*u{Ra-u%4~Wzdt&{3&fmLz?ia&98~$DMp8~%R>^d%AH$U{W-S-6Zp5Vp{JD#KJ
z@B@eIql5R|J$ZM}hJVN1zy0oxV?aG$w0k~!XKj3Se7$9(cgJ@k$G)tdc}RLQZ|6yW
zfpGzP6&SX_I17wh|My~|tLJ9wM(X4Dw_W$Tj$XIkXIk@2Yu2^PwBI2>V}(m|neYzN
z`emA3v88R9BR}H6VvTHSDfqho-ql3Wr31+BRENZ4aMTg_)dp^>^uj)^7j~XVA>NcC
zcyr3clPNRsq@h8@eP7*x&y`e6lg6gMK{<z(m%dd2loVyK*q{JI!)~-zE9QHSb!!zb
zDcWGIQTq?&Q?98tx{!RynnkYOcadI@@a`<t$O#lh06LaNEqJxGD-3Tr3H}UG{kKl-
znUU=q6@#PVt?*85|C4w6pGC*&(b-dk;oSbua%0~&z~MbA3_yTmH2OFA-l7On<B<xp
zk8tKf^_}O#;>(z1WkHfdk+39$;F7V&9MvHr`UI+_ar)RJR5#NfWW-b0k_E0;(4NcU
zY0OcWOXw&e;s!=9z#0{aB@;r>itj#=Fx-Wr%Yw$$s&oiLkP~h&^Fksb;Cs}RJiP}7
znl+l3gDVWw`!Y;mZ~(u8G#`^C33oU(3@8JDL*G!%zBmCQG5AS0%P7Dgce6TF^tM2!
z+}x&KDtdhCaM9&cho0Dxt9gxE<%*0qGqZj=_k91a&i?w%U%r|9_B&4~(nYHmK?KV8
zczV3ZxHBVLzT1J#z?}tHbkOQKSY(@44y6wjnU-u|OSm21jNd&6i!7}UKJg;TaXp%C
zUhmjgzH@AsJYBNGH3TYo;JKSuZe00zTs?n%1d8{+7Db({dLv-lt8dGz4n1u0?YpV{
z&G}l@k%yf7-`l&re(zt2mqB)qI;vwxkQfbedVYz6_+>lGUB%%TT;=EClBh9NN@Vf6
zc_u1rR%l5iS$J<wtaKP}3kfMHYG$0BxDn9vKx4~^6PilK_)Vm{D`yRJ60Ym>G2xUb
zfG}hVl0JpMl9?cg&yf8ui2Ez*C=!-y{;U3y=|$prsRO~aaUwlY3Sh1id3<ZVtG!=z
z0r%L9O!l%APoTEI=j<WES#Ww+l(bSZ16{PcR)*8VB?{;gjXcdI3#J(4@|LWavLTyu
sr6b)@!kX|hY4+O0)rrR(aF3@6L~vg)GX&xJe8P;J0l36oW%a%M6XV{2<^TWy

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_480728.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_480728.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f1dbdc35bb0c2810ee4e922fa47ba0efa8e81e92
GIT binary patch
literal 4203
zcmdTGTTC3+_0Dr=AG6B>3&pTDSdNoT>QH0Xwi4>dF$RMTu9V19FwtneGwg$Xz{~(K
znpMY=tC%mAL<(#5!&r*s#UO?LL?nt-E5H5m3aee+xDrzHQT{f8N>#sl?(Boj8kh9-
z(W~7%_ndR@dE9$mzZXRZf)Q38Mc!;c=+6YG3{QEn^EX&5AsNY39F3N~)F@@abb=XW
zDWp&_i%;cf=_}I;8*}{-M<AKmA3x5@>>YNsd|=dOM|LE;WKKab(5-&R{0s0l#V!l*
zx4(c+1C3Ga<8Ik;hZ}WN?Q-5hqfQzr&Z-8kTU0>YCW1$>@b=Yf7q3VoBiL11^$lO^
zyL2@q)aYf0H3R>h7Mk3cPE}|zfa`}$t(NI&;eefVb*J4B41SJ7wY=GS&Tzw&!LOEO
z&H*{?FdPOq0hqM2Mi&44NrN&R<b>f|V=5fdF2iovew0*O<%}g&G(>~3q`D0k+%x($
zEu(R|jqqm(KSLx~f-hmMQ=S7fM24rNVI4<z9WS`u8XFo6^3t^$urJiWTcbhk`<AcE
zpbf93L4)C}<GH^M#3x`-=oSjFBPw~AZSwX33bTozHWA=3t;exrQcZ=`U_y$@m=CJK
zWLUv$JQb8Nr|BtG2{dAUR*8lqI%cA>hMCl~js;Cuqp~8+Vn=yJu#V((Lef(cN>Wpa
zbd@*><|m`FbTf%L@&y^G@o`N`VxH&#U%Pbxq-$joY_Ul2ot4OD%*-euAX<Rd2s}HV
z8-E|`o=vF}+GH@KbVq`riJ%@yB~JvyN>cCE)KIssBqqB7>Q)jr6<LlZ!xEUFr;^fy
zq9&F2>yx)6AXku~6j*oq+|SPToC6AO*gI9)t{w(8h$m}4xKk7DHX?V!!u#{@XHRa5
zezX6X=-GoV6?x=t&P4L!;ZGYMwmoReoy<ixyUymtvu1xmY|6y)VkewwXk4-_+OkY`
z{GKa!=4nHZIY>@6WybPi*Qakk9DFdC3$Ax;9y^~G&zDXTo@RehK<?I$rn1K}vw88z
z@+*1q)!g;<zAwAh2UeuK*bBTJu7#K9U(OuQo>}b9@sFm~kL6}pJR8R!H-A0#xb=(f
z{40Y`9Yf|tOVy7qWc19yyp)~Gi-BDK`spvd>t|Q4<;6FF6U%>i`S#_z?_|!*k7Z9S
zUw?EVr{@M9Nb55j^4AwO!oU4h{-ypuumd}AJ4khtNrVZzW>PmLO%JL%aWw~ll%x!6
zmE`=84W`N<Y28X`J#e{8$UrgTxOJnFFw-`J+Ar0Ok;EgU?FMi9bO`&>i0zkt?A27q
z*X-Oc2yF&eNj3-U1i6)+<8<1gJ1ZI(4l5N=1~ORCoZL;_*h|s|djK8uG59rlwX7=z
zJl{b9rWEc0P9-Hw^^%Fi&0bUnY?y;+RpJokk>I3)`BF4sPg40nmnKuQiVE>2^<Xw6
zM`tW|$9yT)1J1oyRXYjWE;5l<+!J8Q!<2+=vXp>eieokmDMKUIP!qkXA7E^+hL`$N
zfM0^Y_6bZTD!NglZ>epu?c;WHsNii~>R9Z!J!D=mXSZxkPi*baTK#`)J&|uckqd9O
zp1JGV<&oX9;GB16hL(j*A@EFaThKsuY*To($T2S7?Avu9&X;*N&mJlW?t<VXKVa=&
z^k=6wy<LT-mZdiq-^d0({zak5U+}gSd|iL_+Bv@1j9eabNIe3oh2UQu#CI)!jlc{|
z3zbGPou*_aP0MVW0hp~x?&T6$Jq-(k0biiUDZPq}?N?yAHGZ}1$!V^J<9<Gkj9PB{
z__9p6m8GQl8gBbERZx8X6>c`Y>ea+QE$eI*%_$UxxHN3BN~>438KFu{8-i@>1$>QG
z|E*j5r<xt8l|ZzT?eM0K|H+&FXWBU}?ObW9=HC9#eB;0u5Q&Y309npG68#IrTNHt7
zY@2}HCY}okYg!HlXw1p_Et1$|WhNR@uv1qwT?z#?MLJmv^jMuybQda2E&9|pbWT6O
zoDK+>gN`T^!8T}<poP#e2h*t@%n>+=ZR5~4S@4{qrZg*;VJ;L;C6$1kRJ>3SDqwU@
z!D2PxNpduSJ(@B#tt3N=6jzdAJ+hZou|1lcoF)}hv#O|-WkJ58O~-XjBfWn$o0f8^
z+p@FDU+se}!|>PcgFTQ?1=QGL4sA8Jn!{TyZRWMDCZBnA%j+|Tc3sHZvLr5wTS9Xt
zw*1zUqo=>R^t&rxTzT@#>$@E5<;_9Z;%-{FF@IxAXv_?+`9AZn_%~*N=;qCSAUYcs
zUYmbyOK8pd*Obo^D~ZSbKy>ov#ocDax$j1^Ez2Fbxs6j#*|&-=<nfvVTmH`b@7;Uv
zH#f|IyTg!@f1DO|yy}?%?`F%aW^?G<2H$~39n8-66La`mvGL!t-BoY<bNUL%)ntxX
zl_fxLcfxy(1Vr^5d{t5nv8Pm?Uynn7J`G(h7Ah;1q;|~2qB^#RQb|o$KA2R?_4-}t
z#8WEt?MdBoM#~wnv*bNeI2D&ykR`L^Izlg0>gl+0UL66R;4Vn}9Ht^eQPelc^$imL
zggT%>q=gR;-9A*L+o{VG+;r#B`^G(^C|aN!9XtN8_d)OX9s=$#h<24X_EYFcSK;XK
z@5Bzulll2l?_zHe!LrcOz7$`K7a3S@bsQ;j@C705hl@6{5>RuSwbxD{2WsmmI?2j~
g{GB_5)y`!KQR4SPjG~&p8)J~izv(`F+iBVL4>50i9{>OV

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_490985.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_490985.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2e38d114275513a5594b7b8988325fc25ef58816
GIT binary patch
literal 5651
zcmdT|TWlN06`kc{xqR%B6h%suC0jBQCu}4u@-t52yevzyV@YxB*tMdXpt(zm6d&^L
zO0twCum)1ZLIa3G1Bh-5NJc**)dsBOr%F*EN`D%pKiV>_g{@N%h(D@7C3aDuK!M&_
zaw*!OqNb0J4!HBUckZ1#cV^C=;qPeLh9Ld<+AoG~x)J&kH}pi8D)+|-gk}+oSR#Q2
ziX|~XXl+B%IA9_$&5$rB$pMl;91&-96`Lh%<V<nbW?QeZrY-2^E$HMHbjucWsyaR5
zV6AVPZkEg#u(B@J#-VtvZr5hX+P9!vI6F(h=itcdJ^Y}ArK|H`eCBQQfTQeH=i6w2
zHXx2J+r&%|0rxsKq%T0IRR4$=OQ%8!)poA`*vqd3&zu-Iu39>Sz5SiXPpOtyPW2yq
zHQ1+8rAnXb7)xIY3Sx*CgE3aM;TD%-p&qVW2P^0|!gv21<g-YGwJxT(L9cC=EOE2M
z&$zbfX(;z}Z`0FQ?pY(bCC8*0p^QhWk!Y<}D|ss9O`EppHI|SZH%qoo0x{#2YPXf3
zACmA%UdaO^gY+<H%G60d$*$GvB_z2dBen!{p`S^wXZ#hTkh(RSrR10DSmKuHCiX6*
zOhZL~sz|HMr3Q)7t;+1!wy%>lOv2eMOEgwUXlJ@oH&_nZ@r<M$QbSdXs>_r{8SVth
z#!5-7509T|kQ!hQqaPYr6fxi(FPX82Bp;??dWlMw{nk`rX*ItQQj_NEx<~ZZKdf;Q
zb|P!8@b6AoDT_9?SE6wFu)L<zCs}pQrfry$*;Qec<6+<7mSm82X&QFIsy;m5Dt6r>
zbsrOG0tGC6Jl>$|`0T9XTEL*1k|AMOHK)ZPj*kLKO96t%s2i}T1`!VW2%nDfp(H-O
zWQY%?qMT|<q(iJ~jf^G|!9;ABQ_bU`0181&^IV`=wZu{^cZCyFa-54rheXww9u-xG
zAo4Mm15H<gmmX>fs=dS;7lUJ}Rd29mdRhb#y%RJxC7{9b_(<~LZN%fn<SjVE+ndM8
zqMAoyEQo7`P%OZFfxBEpCe^~0Dr7nm5kPmbWK|0LCkP!?Qme5rGcbNc<W;Mf9_CUo
z7eTd#6QSftFp(ZtZN=&kOd94M#OhQFm%J1l<HDd-BM8l4Q}Z_I?}P2*X?|E335B`#
zp-^}@Bo3uhZJ{Wa659nn+%9s-k#=acgLaN(W2tBmyep<t!C{V1af!Vn6G33>#BdrM
zf8fZ|N1izd9M!ccRqW1pfKk|E!pE>dWb}YRv~#+5syEk?cQne!?>d+*TLqUlXPI%z
zC)OBGc1U4%%H0Lp_p_Qg|8@U-$9y#J->cAj<*qfl_C0=fVrF9AJ>QeBYg6bpxvSvx
z=KS;L6@RPZY?FJ|Xiqk(&`rQ#ygBo{L#c07nAU}{Wrxz<sW6>#_gz=btYyZMv&;`I
zg+6yZBcHej6vvDscVWSicO8^Z+;w|q8)q7Gv4w`E(BjU#`x*HpmZD}T7;8}RcPt%Q
zj^$lF(6vmCFLm5VDgJ{?lPgE^u3ngp%bz=?xSo_x6qvf75V-?6i^4R|Kc_HzmkupI
z_8VgPi4R^}xuERtQ|NxV>n`J(j!s3hk=)o!dZFjT)61r%^GfT{6>>%V?DWd`Cr+ic
zfA##p=ggbnAMn($!nDjs7T!|!Jo~Gcm&N67<?&91?);QoJw2%O46a_h^m~?Dy~ruu
z5rvMx04DOCo~u3A&SVcw4dxCn)PLBrbav?pCGhO>xs}e(T2{J03Mzq9e>C;phjm1}
z4`+2atA|V_c}^VVQ(=5c^i%^CE$+SxfG~?B6xTTw<sk4f<_swjTXHQKN;1jqVkycX
z6t5B^C9_0IRKy5+sv>T@N<6wn=opqFBvZyD+I7QNgQ(vPQMJ3CMCuW}9G$G+L7Mu8
zv`sQsj97VlDVYSbv+84Q)02{Hde4Y4V;4R8tR%Y@y^sX6h1Kxt^v#kj-&D5Xn{>;;
z&)+Uzoxdq>+D5)Qe>-_|**=RzNmj`QQOyXks^n1uNv1P6S}ht>Gb>Jva4N}iW3e!|
z{t|dWi(x$81w0Or0rK0SKVXNTG!z0QW(ZB;A=M19DNgW*u!6&osm5e1rIJPHRGlgA
ziWnS8k8?agb#R|*3bU~>4I5Rm7?c8zii1@SF~uWByrL3ksu`r3q7eB6Y;h&-^G{<7
ztYs|b;f8}+;S-!12(Q^|rjJe?z1k_iEMH!0Xr61m-l~}D<da!T;q3X<v%z;CpMGlU
zsqE!kOYVF&y>RaK;NsxQp5L~8()I`2YpdLleC!_M&hCCMa>v)I_*xfE=Y8#Y=4rrC
zXH9nBdt-M1gzMTCqWQW*dFNrdr{JL99h-h@>aAQyE}D1lxkcW#FWQ&7m%pEXvTN1e
zEqC5C)n?BsriL}jnf2v7P)svZO!jh~^5+iEy>R`7g_it|)-{Tmrl;s^C{NYr_RO_i
zZ(AVp4c}X%?9;X>TejmzbXJ(1oSB?&`Eh1G{C@mKe98Uu<eH~x%~gkgZvUFM1)6{L
z+RfxfJ#skZll(q#Oc=g$!cksBuOZ0cZAfI`1(+dNW5&RmGDc{dD(+K&Vvi=t2&c>t
zA;dDH8g9Y;j=Why&5XH1V>J|mlUt#!3ZiM+O6Zs&E3{R+`x?HJHp?dJXjqG9XVEPu
zPz(V|TjI|0WXl!(wI@-m<$0i1SoPoXS{bXWS+=cJ6t;@B!kXItCu{njS!dU*b7Y7L
zzx|)>jcr$e#&eV?KxU>d_7^yBF$7y<T?Xnp-noF3qil#jh^uyy6U1ORByhow%Emqo
zykidl+bYTX*U=-C0|APE7HhJ=djqbvqH2b0|31}>+bPu&fd`1zp5*wnpuwhU4kywn
zE?~ufGK53$r$cO#Q|U6c2H99rb;4DCluL!VV1i3U#i5Eff;E;J8O4862o-lG3(pCo
z2~iO6Gop;#Mc8JvS(f$l7of{)@CkDoc5hIq#wVXF)Yi$p1)pE;FL=E2se;=ppM2mz
zZr?0DLl>ypY<&L3)!hevef;BBKYDfbwQ~>5CO0XcfG&(@`pu~~3sg<E_m=l|(_+)|
z7%&-9?gFOWg@M07)#aLQakrC;$(1f(+DZA?gIZ)}uElb``NoCG<^7+VUfggXr(5nW
zG&Rp%xPIZMaQnR03kd$NS@DRjN0or?T5Vdj^2vKH@3xcLUY)mI?!8CX{CjhEJUaJp
z*h?XYNAA;NNr31JIJJGoAH|!^S-b@7O~4y>6dqbCrPp|jnQ%#%7=dRNk3)`XjK@TH
z_@z^V$XyxXOIL)mTuMmusu6apwkfquq1ubPC>TvA*hQp`UED&{^T{+jn&4jG!=Mwk
z4HEtV*@lrIh%b@jPl)~kHGYA1Y>>!6z0+{DVZ+c&^bxSNc0cxh<Bi4*YpHqUxsM$m
zIZ90%+SM|bxSrUsYg`*TeB_sj4>p@;h&PBkuU}MNzgX^(B+|s4#1$oR<!epoz7ZK5
z#lgPnBI*cdc63&nkv0%i7v8|P46XX9M=Mqbeo!pg#A=eilblfC$4+Xr4TQQ4rwo6?
k#Tmm_#o|8JbN?j*5%kwooFF`34H}WNDbMV@YS-NJPlso^^Z)<=

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_507685.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_507685.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2abc0c85fb66ba8fb853d9afb8ed2356599eff56
GIT binary patch
literal 5114
zcmdT{U2GHC6~1G8#^do%?AXqav4Jdz$h)v1Aq3d+Q%E37fY22w%Z5<bcqWO1V~3eZ
zNTO@WNL1@+k?gdpV$=t`(n@O}73mu*t+Z^PqV@$h2(0N=inKg5Z`lp2O8eAv#~I_e
z2DaPwp_9y=d+xdC@7{C2d;Djsl|%6S{`0%TbUi{}6GD58>z%dlp)-eg#8VN}U;I-2
zluGMH_5B743Dk(HM-wf6d7WSwv1}Y86t92DxS{&^Aj8u)4ENR*^&5FcKqK}ldW|m`
zXRD8cUegUjzo`@%cLVivIwWu<TjnXsZ(bp$dKKfb(`P$R1$q^Bz0<2$ioLEgXS<G{
z4%L*o#6n*W?^+bvIV4jWZ$zi{UVM4#-a0>CBh%VAPhkVL+#_1x=|XAhQVOBC9oJyv
zG|a;GX&8??%5*d8)C~=`!=HuByti&SUW;q7;R;Z3XPGSVxZ=SGJBVc2tST13Pm89T
z%*IZhn%8N5$6aO8)slq5E=_vF+$xEKX<k1KIyOj@ua^Z|HM?Et(svM{8@tQwSNGnk
z*;m)I4m)ujwvhFihFyu*V;2T3*h;t_6mNj_Hx<_(yMNH?Y|xK6BCA?z+_2XSww3w*
zTd?fGp4a+r+u-{qya_YJ^SBq+Lt3L>>3B4#Yb3kkB{Uf+(rRozOyP!#d93Ci-c%t0
zTH>3_JgSy4o3W2Kl<oc&tiz2J7R;}-u(iyB4NO)%cq`t5ee<-oRusB9XFxaqVSw{-
z^VbG6h5SsfNK)OeQw*a)>54+f<Y7TvAxCUT)8?l{f^U9S(a8~o8xvzgVsJDN<`r5D
zMu!B22^PPGNG!-J#?jzpcyxReI^n3=p(Qyc3jQWVALb>6xh8~%hGj(`8<!R8m_nUX
zsPhWdrC20c4D$jgmIAvKZk@UYeT@SW6;$g6UYke|Ks1ns<hr6C1237&fy+TjP&lGE
zHaI8=vO-6R8HFK12cn8ej$ILoL*Q&sloeB$p9~C%vGFm5Q$GQ9ee^OYWWf&!<R=v)
zA1F>|h~5C$QWf$FHxZ14`JxP03^*_*i;7Vgy&RYjLJ9{u#vmLRl$yZRt*?8&A85H2
z6R${P!I02091L9v%EPhfuHcXmm0Kh+)FKO`V=X|nfC+);!_lDttfw4{2CfKVREWGi
zHWdK2HW-S*Qt#cpuVepS;3)PNQpM?FD|lssS9%KBkU-D3BeONNYi3u5TH-v3&gTqr
zHe{$wYi8(a?T#c<a5rQQ=H1P?9eMZeB=^i-J7=0TWp-qD<o4y?Xj`)HNzw&JUB)rn
zm}EfMT|d`7+nwpmzM1##oEPs;-I;pec+kDn(v|miEp|Nmp#QP!V$xKc*)!XdxtjGa
zxppQ^U%Be$igfF(@oad>wOgH4w~4rtoqPh;j~5zzpXfd{eQe4#<t{93?Z`KDBu^F^
zw`33GuI0CN<Qw-TdsZO;Z{~RRc<$Z&_V!1$dy}1odQWB`U+>SIUl8v6;`7U2gg*-}
zQj7bS4)^7E^*y@4=Xdh?dOrCsc;#)%I<iNz_{paBw6V~*^^>+w4}5$e_uhhKY1^TE
z<DoP|>^0r;q?u)3^Ia;}o-^isyB9hhZ2u$mp!p9+^1fqf4xHG$JsY~)l<Uhie;irp
z&+h=nk%v1LU4Oc|SpQ{9-uGUb`^w|J-F&M#`{u$s56?aJoJ<>uTvK-c-J>}<*PY+i
zzJT-FI`h8Hhl7iKe>vB;`2Lr%yzl2A3ERNVvKdeI{e^d)*bjfxh`f8hb)ve~Z+ytv
zyaxM=#9Gogp-~u7kjKSnh+u;DIH03m&kK+Ta|ojmjZ^j=AV8{%>oN6Gt|3kXw_NkO
ze4K%Ca%L-@xKY;XDl}3JKy_G;=|Md<VrHJwKrYVmy0{5mPBv=_t5sH*E)^1HtQ(}_
z7P(ZEV2gSUAb@-pKv@sP1r2eNm8f`ly`}|Xcr~B>QG7#5e|7m%6xf70Y@TQCtw%v2
z%$`GjWA7cELi6&}7~nK7OoT(i%1<E(74}7PzE{)>Kwkl!ev?8=!@)5@+(%}2K%>wA
z<Dp@N2B49r6sCwSN=;Ol1RRT96GTAQK${923R8q{zx73SiEg5)jx<m|Be8)rCGDb%
zkQMlC7=jx?vI1uVJc_$vL@|{hOFRnn33#O?XcB0ZMV6Y>ftdr>yAnqeR|{rG>fp@5
zb;9aQU7ER+I8m_FrcTeCP8@&6)ui5<c`JQ2)0BBH9nOv~oPW$6Omr^W?1}C|jU(~y
zSI)+#PJiC%&owPMcP36RTdc|UMAtKeE8UkjcnYk!z}nQ-RA5X0<`g%>rCUF;0yAZu
zv8IDdYy-@CF<iB4uP-<n3+|@xw%BQAbvs0o=n>l>t`NMXhnx(uSZl-3!Y>Xgjv(hL
zULV)-hPWPRLs@Z9<<zNJ4S6q@R8~8KJPjGOUN*+*GL2QrLnwjEwN*K>s<!o$9%st5
zRVjAi-2FS+j55g*^?|d>sL>fU&nXl}aTXg#N+(>K3#Gm$#q!33&@c1qzqM+w^z5}>
zvBWFh1bfQ;Pxkab^Ukb#XNgl~>-K+^8?W5~D~VA>Q(JHN?{MD22vTDu0i!D<a}`5q
zoDYh7N!Kh3k{k#@y%}gNC)!lN4L^rFw0wBa3aS`s_p{<ph$bTx)lkJjtqRSaHnrI1
zql$45s%({>7Q~pOLZ3p1BC)6dn9WVZLcz-cDLgGG))GDj`0%JwBMDc>g=k0!M1<&&
zJgitIVlb0byQG!}$;$yD%9Fk+93{0WK(AUBsL%}l2-0{&mLzg%l;F4s#WpqSl0ESP
zOqqaJx((5(cwAeT=vj8vC(bO_H73q3JKcby4tJvGxdl1u=B%^UW!9A*$sT$1M*HW-
zzc}^TsYgFM|C}~Bn8Zn#VsoZ0&Rkq(Ytv`u-S>TWd=DmoX=4&6fN8c9_+Dn~GroD@
z{^*_2hbMq(W}rrOA=;J<XX>)v-1LJzj}1pwEeHU;d)c@3_6N5<_}#@sck&D%_z&}<
zLRX~{(Ct#gawU46+1;-V>h<c}4T&?)thGNbc1vaK|Kcy)lFmf0dbjv3YSM{^NaocP
zZ}zt%@at|Ieqbo9))Uoq*N=qZ2T~{&m1JRZOkBV4`-G?z6V-fF_g^s=6DBYei|}`l
zYNnVi?7`6(KOPYdi@yYOkReF=4K%BIilV+omcJtF-;j5eLpt_D&vnnLZXb1I)q`yI
z)WFQZ>Lx;YVHZ=8naHY-P@9p{J-2gq=eJvcTGJz)r6@B=ZKG-mCR@ro<6YH5f7#+7
sSN<vueW;)r^M?c12iA;0tzDoHW&M^Np(y7!1A0{BTe5AwZdRTCC*uoQTmS$7

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_524778.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_524778.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d4c79313bf52d141dded8a4a834c0a5cc3cac238
GIT binary patch
literal 5943
zcmdT|U2Gf25#Hm^@%aC9NBvoH96NE$STU=g*fQ+ckuBSbB};J|IJKgLpm`^W5=F{)
zCpngn={ax_5iLLoEg%|AVYVnxsWM=tC|ac`P(7x}i%tw;;+g^kl85?@iH$z=rJX(g
zh*l^mN!y1m$i3Z}-I;G^=XPfABfH&#puBnOHzOZ;5c&*vO2t-eJR}K(<`IinB7z1A
zPhx=3`nqxbfPp|9F{;TaO)WfG9cLIVNvUA5`Yq^&>hvL!HQq8T6(tOqSdv4dt_p$0
zCTrS)PH|?|41dcOd@D-~*;v~x!+@o{O8YG|VAUbcTGng3PWT)Tu&zGUbgH-ibWfm9
zrHYL{)mCVAUFh#R(;ISBz{94|!~fy$b=Z(1n6pqup})DX#8QzTckD1yS03q<oRWRo
zh$>|pHcLjZfs%cxsB;?FahK$h$T6VA-I5{hsnADOo$ZlqOL!$vy3p%i!aQ1{D`r*K
zX?sj3BQcUk)9IBQk{+X$7!6HLg(Rw=rLvZgRD;J!UY5A4FX4#SO0|-CY!K+Rk_F41
z2K&Y9Dr8l0O{q?*1xpv#60esCsUEf-{ZPlEAzeMzV$_hiFcs4aR91(n7=?zop+ZYF
z#0`M;ajEXd<zcL>p<*?=Bpq1ARItjXxl~EFv<X!iPh$n1DleYYDDC<>i0&FomLbrO
z9~sbf<Rkld>^KjwZ~AnqVLT{|sm7Q%!tujE(u$AZu@QVGRVPMN%LE@A=7ZybFsqV5
zJ{TS5RAb>`h{S@dYP<%MfhLGCp7S-SW-&I#MPaz0lGnKK@QA4DW0Rsv2_he6xxkfj
zD^hMvm0PT8E{=;`*=R;o+f?jIKoEnxh=EvekBhR<=JDq9*kgIvQly$E!ffD5Pz;Tz
zCfsDh<0=`7MT7w0$IFGMm5*H$0@1+GWF(@R3R0sgS)dk2MO8~|Xh`6&K0(#v%A!r5
z3Pu0{B?N~!jb-A-uLLGUUZrpYxPoee^<t9H1c>%*SN=KZzZT=igo$8?^N$2WV?l8w
z7JV)_%tb}Nz=!-IH$LHqo*#sBEE|pv2f&PCEE*W&_$U`SG;uuu>=H2)0}DUj+J59n
z2XIu^#;n3{z8MhVLqQP01!VMSFLKlK_Bnehm~riqU;5PHN{%PSQ=J*dZuwl!&df@R
zec!LH{5t%L@G`M{JhT5r#r~pvHfyJ6M-=;R`E1V9AoqMqd*?gmI#Qjf8w=f^(9h49
zvhKQfTkjmbeKdV>fy(S^QQR#vWY%4qI;gmxo*{GI-RU~T>svUhcw1*ISnY6Pcs87V
zR;g)TKD_Gw*l~JBpR1`)4JtLhh0yYO<<JSmdlH5gRh?hZFI>#f{uwIgsY`YL^5TLa
z{i@RV+%ly!cB~v;ed<GE^_lliesEDa)~7V~DW3ir6P|ly?nvs$!v5d7m%Em07yT<|
zSKB{yuO4~7UwO7??Uh$QroWFRdQ<i3%S!#B<(fYdEA1<$_nufis<iYf^}QcVtz8;e
zAAEi7((8Zufl~j5;t7CY%95lK)NF0)z!suEp)P#UgqXt*!S;xE;|c;b;u~<a3s*E$
z;Dekv$wx!jl}iPONG<NL;N|m3LZc;4#Z$zuwN^%}oZc1ODiL8wH-!Y<dGt0R5u;Vk
zzd?{4H^xcOT;&XAiLow#zZban5{8XuDeMB*xj`+p*mCTf1|3m?CE})?M#iZvaU1{~
z&5~hT9F#=j^LGr7Wnk>Ks35AsIH5(e&GvFll6J0t3+bBWMeGt<8O46FsYqlwM=-Pc
zxP>*ut=n4RB5=K%gh02n8*v0Hul*`t0_&8b{I>ILEKz~Du8Jg5GM6L`>Ed?Q7<Wii
z+zC&}RpRdG&jDdI1YpO~yloL|wE~zAYba&}+e)xWrf;?eK#bqiO@%d<_r?Juw)LmD
zQ?l(K!?neTjeOD#Z|U|pJYZp3#KA`^l3mM$5M)O-$V!}&N1`EPbVH7!mn@Q1GT$Ya
zikU8fvjkHgZ-SW*{sra19^66@Ews$Rr{5HCeNNTLiq|I~1AqhoqOLI<6%V&-kG57w
z3r2##GemJ5Hby7Mxrk~I!qc2e7UG!djB;;6w2WQj_&{tZ(5hNOv8Wgxo{UWjs$nY3
zT~iGqHaw-0g~UJ$VLoQ-GnBZb5?v~BN+o)=lwbp}O5wm<5IGFV2+zRUc>JF5*oAp)
zCcXwL)m}_OSO~0>oPftw3*-DjJlI^0vV1r6{qPrzaGuF1??5(h@?_%VyOVcr+`e)5
z%)Oq)p0(W_inU|S(6MIi$XeaW<B8)pyW~#!YPRk8A5Oe?VzqO<?aYih=}b5?RDJ65
zoi}d3v2ZHW<X@-!AGFAwS<0PsBpkDRhH8*Ib0*h2Z{2(=<z6>6WSySm^~Cib-ADz~
zPu}L%o%<H__ozi`*|TI@A=VEZU89b!IgjQZAC?Z@4zD|(SvY;Kd$D`@yGy+*o$Jjn
ztWhtlIbZmkuD?(F6xz4&WQJ~*d$SIgd=Ave-H+*In(i|P6y`vNd3MH}rE7}Gz}26e
zxKB4LbaRG2G(%-w?w=l>KQ?zPbu|qX|C;kVGlne907t7BFU)1U33HBVn(v$IOShzh
z8Ro!!rcGhmGR*UjNlpWvr|#2!h4yFYmMw)h-lz8|^uBawhTf0$G|r!xJCWX-p`V5x
z(>UKh*AF~qKh|8?%Q?Ntcp{#<m~lQKcLOT<!siBN_7%m@0Orq9jx6P>_<1!V(3vdd
z$+~K@?)t3v$$vCCjU@jZxI+m3<$_-=EuN1+4Ht4Ej#yosfOB03=ei#HhKl^Z9M{Y9
z5xlhqNjF4@Wm2`6&l=&aF6I$&V}-;j835eLDy30n!R3Y~t(aNF$qH#zG6FbPzKJxG
zSk4<HqeN<}GnJ4ND2yQDo2s3wrD!Hmtm!x)tw8nPvf8%Dc0@&CRIC~H)bc;s)Bg;e
zRYPZs6BTy*Kl6<pcfgL<C{f=-K1W~p@9@5b5xB+!8K@7i=R#<iWP?5(--bIR%T0wt
zoN5(0K@5a~0vBkh?6hhjF#HIDVI{eZZ^g4KX0`h$z8%v{a8rg$o5&x=J$!FwqpE2L
zF3utjj?)|;6SSbA8bgs-l=GSK-8K}2yDpBA_Hty=?y*jRyE@55LtG%jMTf<ajoX82
z4o4>-w!t;EaIesA6DFP$CL^LCm_d6veiee2LtA56K0gRU@PQ)S(JqF03VCYe^Eswg
zz5v%Sxj#pH<=&jzE1!R4L+%=UXUtK|>}dMr+TQj*o%wUm`#ozfUwULTxJmgX7~-Il
zuO(i~QJ&cgcfI$T7MoV4faxIRv%s{vk_Qt9b5w1r=`MF~d~tmBEHJI4eEJcCjE<Rb
zswUmIFul_DvEgLihMaEsT&`))oy)f`|LisS+{^_yhQA()O|mu%0oic0!?GCp{O2z3
zj*Hq^oVN}lh28V*)^6Lp_OIZjkd2o6w3y<vYc9qg!=B|VBvXeX@O@?yz8<Jlsl{t<
zt{)AHsu>b1LFC??;I$k|C12s9LX3xx8{nWgbJ3gtzK&>K6Bv#~*hQr2D!2@Fd_2ZZ
zMz|9^2ZO;)knlUG@_K?GK0~&@BKzM^V~#Mr({QsPuX~#4Bl2|!ZuWzT!F;{eZGf#z
zMiP<yF0I>$;6mO!*ZgG@?mpBbovk?UWuk*1vrZ-{C8WF_+Bus$*_-Ii8=;*i5nYov
z;TDD5Ox}!J7G!ZI8xxIrEAH74X?bXe*27aeMA*NiMhSxcVo;BqP4H#ord3<jzX5n>
B_XGd{

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_533885.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_533885.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..78cb61d5f93dde9e25e264b048d5a2717a36202c
GIT binary patch
literal 5358
zcmdT|T}&L;6~41OJ2T7d%(Ae6AwZ0iIN63D**LcI=fp8Km>3+(u75DecD*y~5Bq~>
z25iWzG_DdQw2@fUNUYmRY}AL~+LB3LN}@`^eMyzR>~!54O<ifF_@PLBAhG+>hpOk!
z{;(!XNdF#s#m>Fw+;h%7=iEErxx?=`t_nf>$J@UQ{-_$EFELSU_QK$PJAu#~5|BVd
z&``c7h6t0kM6E+4fkYx~+9|5$d%+@-VaLNfObOOa_~a&hTV?(TBT#RV*9!{_(E=yX
zA__ws8=Jsv!nbe2ud2+471_6JL-tZG9B-kaDhm>;N?x#&goj_n4h$Mqr;i^x_=@-B
z(V@cz-QyiN-gEevLBDeB_@P(5g9cL=4Ep&pe{t5W@Voz43(mR%xzD#S&>NdTTrbQg
z_$?$YB}wNNlGc)BwdzzIQ#OPWF11?a%u$WXt5!TxT`GzDDR3%LTV|8o=q1P^wHC{j
zEW69(sS5IL)p5NLZ^Es*%A}cZN(;ogwCPQqTC=4FSF~?x)T?z6j~kCiVckT7TCcL^
zXj{>DkXVnmvCMv@cpKFQfw)0l$2$ov(WExPnL%$`1T<o41deJmb6AhLm|x&hrHnqZ
z#R`P_2=*4%dD!l@hb>OQ`4DVno;1V$(dOE9Duern^-Y`gs=YX~?wgsXmNKs@yz#0<
zZ80r0e;2=QP{sTZXcBqoK?!g9Dn8Mxc;vAdWYi~*8n(C+6r}*L%;q5^ytaojEK0<v
z8k6Dy$rts81cQvkeS$$pL$OeFJZexr$rlTVhD}!DlIUqQ=uk`$FN?B4T@piqpki3#
z<BH*s6)7Z$VBoU%!b6m7u!Xrxig&`W7YU)nk1L>36ar#h0|-IF`!C@GB0;8+gpaym
z8w&}bWOj1C6Tq~1(JL!HNik@lFknoFe6nb86TS#2VVQ^+GpP8;hzv{Rd%<9Emhh}W
znIlL6Rvl9$!>+_f#TbN!WA<V_gBGI~yc41y)J=xm3SMph*7o<|u1j%gR37vB#jc>w
zKk8G0@mPm1AjXs~S@L%&Vsxwvs4lQA3PLCr@Ip?Nc+5L0N-;6gIX3Bq=_1n~hjc&F
z-MxSRGcaRRuWRMSr4De3hMznOr$Ivx9Efwy3``HC+Om#j?eJX(zbTcgu1nFgPVMLl
zUz-f-e5=-*bGnnN?tCmAT5Q*M9?+c!w7$FU`nlfO-c)Zos5f_J-Cf!MX7$hZrxFW+
ztb4CEkmKrqUNhf#wK2Ub9mqCz>RhLGWQB9TFU?KPPNrSyzHCE>&UI)<a?ZL`WBPTy
zakuX5*7{bs+GIfIT3~{&OEEgXJ-v6~nEu#)o!_tZ-mR{gqi5+9oenPgZddQuj^_A=
zpAxA(DH=;Yuk)RYdzT*n4YBm(M=vd()4K<C?znd3E?+$pm<}XIQWLZBg}#qZERl<6
z^!68*sb%Gh6U&!wIraAAnKMJT`STDl#6GI?ZRwGPH}##*eR^<7S?blF=+U{J-%^<q
z!+PIv=8X%#7sSjPqTV~Ab0e?-Nxjo|rSIL7$-UFVseKFEK5kn)wfLm&d2Z?Sa?clS
z%e|j?b<eRsk^}c)XOL8bAGP@5hKE5(qB1VU`~}DZ7DBibo5k!?c%SE>41`Vg!;fK@
zOIQ=6N^Cl7OHiss>rzU#!<9hSs*)--Vg);uN(vFKP&#f9MF@%!swH6&ED2g+i~b1~
zg)5H3<wd%{RH<S?D;ARk12MXaI_rJ$dLUc+(GLmmaBCUMcaX7``G>b-LxX(KMbEa7
zq*SITIbu!NmAaxS)ozw6q(XimwuT~qy%$OshE3+lVwNE8Z`ZFpzpiiDLcj9-R{FM*
ze>Rm;X_bM(RM>3-sg{$tG+nb8HbI#j6AelbCqjO4^<~I_S+FF0t|WYK^N^JQ-{XJ+
z6!d|r4a$%|XxIQOl}TwgR_lg`VTFQaP<g;KoH6mT;vI`$5+#6V?{0$&$zFdvri23H
z@p0K8{X%HM1W1F**CS8W#&?l;#UM^r^2HznQ0in{KGy+XYR694OCT&A1o|oX$sH#8
zuCO&TFHXOBrAIrcU0i9}KHq+|T_+o~{v@3{btZGl``!~XPftIcyqIcBok_+QPTw59
zHoUy^^Nw2`f2evbBL=lYIldZz&sme){r<!q0L_LDz}SYpS?4~jFUQv0VYln-_S@`^
z47nr2?pR@6ci2aD_R-sHTZU}Qux%?We}`?>+2-49Yldviu&p@<_uj<Jo6~QmcBKMY
z=gu3{P4*hQ*t>K#`_z#P+pG25Bi+eUI@z?sIFt3MTIgo@X+C)|%QU9;%^$dWV4*Gh
zNc#%I&v4UR(wAknrFPDDT<usOvQ6JxVc40f>8j+eA9G20ZfbTa-S(42+W%qrgYcs3
z7txj4mX+!T{O4-?o6Bya*4)V9)cU1PNShyirG~4R34uX)!dDcLKmam?U<I%t6IP(f
zvO5((;l`$7ShI`}N@=1J_`w~Ix{mJ{&=R&Xi<O`dUgk1u6=2b{R)E+9Rb~wzoDB_N
z;a{;vuLF^aUpE{bUG$tlAp{Ughn*W10kR08DkIP@0A1$Qe=BPxu&?CVmR>Q~E5QzX
zTJ=BK)Bnsn*7VMiAj<Oge|9#u+yM^9s4@W9{9x!W@V<o*9F0{CxU2Z&0(OoIK4}*o
zvWh4xUO(Kfy}QbZ-6p1o9su%{v%6Q(2F@N2BkjeOX!yv08?R#6;L*L?uwgo8&?E3M
zV$xHh6qij<HEjM!JSKYVM%6^z@4MiYLsM|OFCnj22t^GiT;#{am|w(q{eTiQ920Sn
z#NP(^8wWHmc*U52$M#TcY#ejtvWplkiSl?vk!4(xN+_QPdESh=w4QVpL<Zp}&znfU
z#-N&dtv}~(fZK0<qjo%3Tc;h%x$3ljxPrUt=eSue$GDT>^h=o?dwzZRvsXWPHS^l(
z2R710X-7eXubnwReLlz3BnNKP-E6tmvNQpcJf$6hNwyl7i5%0AYPliaj9!Z_AAw1h
z(hfavBOCv2C{>?sUYJ_yzD>Tg=0HxD)|+eDK7a1&xu3z6_T2%%^6%!w23s4AfNi%K
zmRsw;S6#PdP+Oa;+olcN<7)oB*c}^V|AxN|a@1;rW^M5hgC2)@?xbh&;dAD14V@AA
z&>e^GF@q_NB>bN@!x|1Lh8?aCvLap{lM45SQ({bxOXiU@kAT7E&x|(^j|kV0xl;bX
zFfT;o!gxeHApHQ$!68BNB0Sct1VMa>9DhRGpHcG~g)GcFO;?)MEG@(!0pyOyKWzS>
zd5tcR&p!W|;}b`LWYD8+^O38OHM=>>pncE&D)Ld}Ym>ZhMHWZi%vUcHjf68fKBvyA
zYY2u5-^UjVbGU5#+;Pic4l`$8zjId5&kFak%>5n$5!}~Im>_Du8nz;5OO|iF!kQ8N
E6JJh%WdHyG

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_552958.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_552958.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2fc74db3b27f8a85441939a51435b76a12ca6b34
GIT binary patch
literal 5822
zcmdT|TWs6b89tOqiQ+}FZ21yj;wCGaD0Sn;ahe6~+NE|bP3>gux}tGC2#QGCl4Z#u
zX(#r`f!R7FS{_6f1FT>Jq7DP<G%4Bw1C{~<TI{LA9%jYCYH%4KpnaI%)H-`925kSK
zM45J(y1PB>z#{+K`Op8K^YeV?_zyhKAZU5%t%<k82z`PXyKyyQ-9sR>hy)}MX*5!O
z6C;Ghd#1c2B!NUCW%;qYR^Nh0BvZB*hf46e%g0E8e2u(WvmEgYl!#Idj*c}_@I658
z7XtzfzrX|ZjJte{6WG_t5vHCY_Zk{uJxFBhv2b%llwZT+pEmu^4xJfzJ~m_%gNcwM
z#sJV>_^p58!Lz2o+*Ml&_^nMKZr1c#Xd6q9ZK?9}6hd0VHum1SebBNGtIi(e)<_Vn
zuFBu6#W)XYtx*j-#&GWu+|;8<ZB$Xp=i=M51B8>{U5ltqDrZs6DpEtL7e|N3gTACq
zYb}nE=`Z_JThxd^+#+w{nTD2Pt8eF1sWWahXwQz;s<x`kJX9~HpaRfOJOUcC;spr-
zTFQ<}ZNhqNQPrzHTcfo>Ut)3;vS?LVoZUREtF{B8+~iSh-s}NesXHv&_H8n5Q`-e<
zBV(;Y^}y`;?FiJyEhEu&&DN*`wnpo8j2Wy?SDjEh)sC;9!7ZP?8U&g{QU7TP7t<Q9
z?=?(CJtjF7mnTgst4xT}xIIjiknjpeY15;mO=eokj!W^WSW+;3aVee|7fni@h);_q
zna;)qFv^-#GNT;q1G$ow#Aui4O$xH<yC5dVClu40ol#6qR-~jLf)_b<ZWEU_Lp5F1
zJ~q2mAk^)_lcP80(wlT(Ih#Efla;un;DCvjO=3{OH7ViG#iXW_0ywZ<>FNuz%8rf6
z;Hdfr9#0D9t+!y(IOb_Zl5tuWA+0J?RnJ;;Ws>65IoYIfMA%a9g3%uOs`kZb?}e;1
zDNn}}V(&yeF&S4TvYE%?<6=hXm8C?lB2G>B0@n+kML|er#$zypN;VUl6s3%q-akDT
z1GOzoWMOg-9qK!B=$oK18#a1X&85d6BD@jEx1a!YbpK(*hw{U@;li#Ju2VmDj|<kh
z!i5s|h^wf~H~#F!#j^`%3+Ib_R+{&f_<j2ERX1UoZ!!{#$%SN*SV))n-Po+ji04N1
z<K<AJ@x8)msX1B-MVF4hJ6h^FS_&Q2Pu^p={GQw%V{fr#>HJ;hz{gB~iRu6Ki@$m0
zy;oM4r}cqVhBvqp(`ivZjT@0G<GCJvpyES;5Y~lCO!sGABJfa|X)q$MpEp`_y@fL+
z=F!h6PoSsbMHE}%5Dfo9ZlZ9o7`}G6#D4=KW5ciSGF~$F<en+KTpWCBSMkKPSc&af
znk})1^ubSAK7TlO*m$ByE)CpeAJ+%VG`q@#jGhv+6A#x7!@V9h2Cd<SO3Yq7Toj^W
z!}TaEvEK_~h=RY*A<BRG<fW5WUNMy7BX5P52A5jj=zaJ2?f&0|Zy$c|OlkMPhhwGP
zLw_QN*J06+)QBHV_|XXulfh*!W&|j5DS`z)NmOQ}Oak`qdV}*r75V-SU%(;)B&e%4
z2nBBiR!g}cibLyyB4eIeBzsPw9}y~%azO>yf%ihi*%q!R5{yF{rIIPW7KY<xqrKq8
zex#?A8oB_!xa^MOI762)eo3g*0`ayFVs!YnNszjnXdL@GndyV*T>QfRPPIQ^Oh?}C
zeJPx`N;&LYV;8*E{P-ZVub3aeJy=D}uTmPVdR32wo&hxgxw*w{`J8O8uMA4z!rIbQ
zpX#^I5*mUTcz}&c+bE-vf=^?VX4_G!#ilmiV2$wyn#QU=hizL`>U^qxm9Zn(#*$W9
z+j7jSaY~2nN9C+}MsRK*VGi-Oyrl^n=Q4Nw#yOAJroX#>qd&P#e|P<M{p%-IIDZ6G
zT4hxBmj7n$1WdrneHWnowB(1pCHxIrr+^zClM<9U0CArn&L$J$+CQMJeH-*q&jw&d
zL()MInH1o9VnV_niiP!0^qXWxNKQ$(C`~FeGbI9?0%9q1Qa=`vvq|xS>8m1^8On$k
z0T{CvL@AaXi}jggLP*Y9kYxI*;2-6;Y;jUA_^Iw~OfoYjN|GqV22J8wlNgeAVjW)0
zjZjT;91a*V4rmkZN<APk19d!<jsbrJe)2~a5LSYS3+0dGj{KteddIbnUx{x{zA?Gn
z)>mTtmdU<lwhz!D|77mT!mc}P$1>Tm%yz7XTNgVQIt%fIZvE7%pSe7DY3|2AFyeRo
zt@naW`N`bma(iE4;QDjdo&%ydUuy5W{m2JB@ArH(`$z5f+TGyyb6x<!{9JCX&{Wuc
z<%h+lH+Q_T<4$PbGQDp(v~RVhYs_gyrY;50$p>-)V^@yTkFHjktE_RpM7LqS(Rvu8
zC3+W7ENA!@xdpE9!b0c{+r3P7FS7tse130kuW`VLU)^tEsLd9_D@=zzP!2ZeC+-C!
z9|s>U1s^WHuoB#(pTOwK+@pheHpd!AjSDMu_hzo*Cpn)!h%v3%c&S9TLvX8f(0a0Y
zCdU{DuJSnGIvLFKIo^n`&~0GnpdBXeWMq{N;J=1e`1@OT1LdpihUL>wN&8_%6Y#4y
zT<;hz)+a3R69^3n9*q#ZnnxftFYu(}uw4hidVd5PDXDtK2*<U>1t8%H;JaA^U5#>h
zbb(8_UOBzF0VeiV8%6Uuyt!=S@VWmh-uy}(KvW7gcbuKyj+{VA1kmA6IWNw&sjxv<
zr3L>}Aag|Z-<q|rjBMMeXdIOgfHh_QCu{njMaNpvaT?*6xBs)+*mebYoTEwu&;(B>
z{|et*5<zLK=^$Ohl?(g*j1ZUlFv%*Sti%#=S&SWUGJO^<CGW$g>=YkdLt7;MQCd2T
zJ^A4>3il$V21}UBnEo-ilv;Puc~Q#B)^2Z7iF7t2Mg#cRoQT8yFgY)pd>s;EfMjsz
z6wl9ynS>Zii<xm{!a8SLAY=xTnQ6G#0lHLA;MRfLFNyL@T9IY^|D`(ORM94A<yiMG
zoduIQ_{rC+kVB)!7X4H?(y9-aTXyJY%1zDsP&wSJpMp&^+_K0o@MSt;q>9fh@9zKY
zu@9bq|M}(bynLS`!#@2vFaeNxHTP<nZZw8(HNVq!qwDr8D1$!zI4IeM{G+)?%XDj@
z>z4S=)QzbRkAsr+=>zv8hzedw7Fvp(OY^r6-X)*Gx1q3pqTKb+^|RN`{`^(_#Fb&#
zz`tG;TYPPG0=^?wS`q!!rwz^9Cbhl0<~Du!Q@-)v%N@{ZbM9Y?mquKZe%eA3IE~;E
zlfDHHGgLjr>`%l0K4##8Zqha-S;g&5B^5J}$Yx|kyf`h@jx{fd896J#zYL&2@sYzS
z0+X#)O>8`y7H%MGtZK>7PfcZonY8${bPkN6Opts79u+S^5T79K&xrpE>MRrf%k7ui
zE1t)R(?q2c1sn3CxzS3O#qO-JpLb(+-HSY2%}^i?5~0;VFyEQ$tayPgbK(3@Zm2>5
z4e;L7Qt@MoM&U>$fGGwsA<LS@9EW`D<<U!{>pXDl7YRi0pVKLVX!>l_i$Yy1!JU^_
HE0uo&INrC`

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_574109.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_574109.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9fb76e01de297358989e75863ef9a0d8a826b680
GIT binary patch
literal 4914
zcmdT{U2GHC6~1GS?Xkx{acn2#4<=of;3Xs^!17aeX%|8uB%$rD7LlYi#xsfS_$Qqi
zCy<WCP$7ZU2OFspp}T5QsZv9UO7^K#s?>d|TJ@nZLB*QV%F^;sUMlY<ed$xr9ec*!
ztRek<=#@Ql?mg#z_niClow>hrIBW>YuJ}*Gzjh<^39e|xQ4u!&3c_8)B9@4uvGSW3
zBh<PfZX6>C#1T;yN9$UCvj&cg+CSfhYm)}nc$0ikQH)uvh_$mMhoTK%v}H{%X*Y9L
z)&hU(C3<W9_DMTyyJ;G;>Cw<P(HLz&9Ig9fzee~SFR&}4iv6A83#ZNpPLEtTJun>7
zW(4a@@HfJL;|Bzu9TA@85;bU2_019wD*Ciz8%u+3>69Fjae4wFp14+vPgZd?NkU+2
znFpWdp-D$@NiNBR5#Vi}2EXRPi*y5Sorm?3DBL6MmYk9uOEsREHRS4>B_#WUN^E$P
zbfeTLkr*}Yk=!6#wei#58l-yO5|S4qNFJ#Hd&C-7$Om{Xp`?8fi47wGBCR7f)gV%3
z%i5=8keXCPpX6CFX;=ihhWzGH9y|R4&;OLx$8S)`cu<&DOi3}!@qU8G0sBpgL5wN3
z89q712jhVVtB|o|kX6h<KA4!|6q6t(dCuRgIK<>MmjDAHFeCDcZH|jfg+*1iBvTbZ
z;JzJ*aS6r32I5JUiz)Wm<duLR26+)f+i;CbuvoSVA|GM7T5;}x-a6N(&=ms!KTuog
z<MF&HmYE0}fbq&gC>c{I%|pdB8;s%MpaJj$$;nBD1PehigI{<KH1Dy-2*!#U0@Q?N
zz-H=~zfbheCHZM#CK%#+!@<yWPz)y%`-4+lLhKdzP_M|vXL_O5%f+v7EE`Eo1t3N-
znFvgCe1ePh%v=kAT5Al!3<VA!In;OH7-*D+YOk_6zZ-n9z+d<?JY=-VAeTEE&%_tL
zy6)U54?c4?)YOU=XRhn9rKLbQH_fP_F*}!;%cYm*R$KC2$Mem{*Ii$h&lViMh4#GT
z_2s>*WBE5u=IvjR2MUd?3lsT9|MI20`%QVMNH^vt@^t5q-}%Y8ADvqcuC}l5emhUU
zEuStp+_}Nbx8yTLciRHHbSb~HC-3f&ho0H&*{)1i?u~_cfLS#^@_pp|IP}CeB%dle
zeG7En`Pve@Jf7ckH19kLZj<I)XK$RneK9weckEm;F7NpR*|z}^BE_n$Agok*fANjb
z&U>)Z2pd5$^PHIC6CpS(dchQ`($ddh*WX1Fit4JWFo9{nBoTFW_&}S}7U+r3&6XnS
z$2nSuBBuAk`WS}LcL~6Lb?-WdxCXmUGMO~YR<Ub|xZ<Hk-<9!6xkuFJCF<M~22>@J
zWSKP7_Y+#{q@oo<BbGEN;#E*f)T>F=w`9>Nn37C2woO$VO_D4UrP1o7A#D{~bd42@
zK<$J?VsC-ujIb(gn!fthVrLC_1$Z}DbyT&Q#2PiP5(JAQf2GY!^m=-d$Zh)9*H`;f
zK>C$+B#=bD3-lW_z{a#;!Wp<K^1+bE=rq90av>mJftgJ53>OTA8TEMVkFZQ6!CcnQ
z%4H@c0M{`6`%g3RATZ8V=5qP;T<)={(7Gve95DD$xF?bj5B4)cI5@-YeRtsNf#HGC
zZa*^@5yK47VTu#*5aYGv-OW_V+pnUQ$H1;1XUZ~k2nDZnGZps#Cd2F%Vv!KX1O*`#
z=U5n=QIi1^6afxwnFD34`v%3tiq~d1plEIuy6|`>t7!}}6+Yd57vv)BFW(I{#iYie
znAAWN%OoT%vG2`_aIjx-M1(*nnGhpWsboq}OhC=zHGV(tYA%zq;!1E=A#Ww;I37|&
zpdWGs8<|yES241YxMD76Ais^@gPrNZ51o&A*mj7=X9lM=2qhpy<~bg|C{Z~<kyDW0
z1bnRV6qO7A8n(CUOU$2uI*v!!4ckCQrFPWNlD(d}e&eh>SZHMyyYF@9$!2*dXDQI$
z?8(f@54pwZd()3;{~GCEqx}Wiojs8`@!`PY$i0!3!w=uO|JGXDu{?cjjXbtS9|QGM
zdRLy_^@Q$RBRkjV&Z5O8f9ILglby~?FC1AKTx;!KJ@fP7kA{EK^!twAc06%jyls5$
zX?g1L=RN-Au60kpJY2MUzW@H+@jK&7&CA{Ez9Vb&QTg<9(wloPPqr2)H>8{bMHeWS
z`tug3#=@?>i|Kpm53a9vKHhckw)H8sBTwyEa6h5i9%1vWBjd;g*Qp(!m+7o6W6Sk@
z&jE0{=<EDjo6}@2G05(chxpfFwnFgN3(k-#{fFTR-|R#hv4%9k8q)@rOdFw2)_h6T
zp=h8OQZh^uq7E6=DPM0wtZBvkphB-{Qw?IBq<{&m2CWY9t7w%`(&iepI%xn%@Lxf*
zh<d633N@?ISv1cH6hUc9vP50g$TUf#REc6Ocwg3d_1~JcS9-RsR}}V&wZfX({wHht
zpLs{C-r3Vc&Ak1e?Tu|$z=30wC`eq+(a2xmyhRXfjTbVszQ8*dC^W?e`F&WVMNSX{
zp`gG8;A6g8=~r1jvI&G&+kEf^+R}2!Pw~AN$pTjq_?i~^1Gr|wwFKX<%D}iuL1j_J
z6pAGioZreH#~O#uu>nlwF1RVAxI~D<*OMtRT;*}a8cEE+{ROzX%<!1kVMtC$#Y91{
zLQP|DrcB>XH5MJ89|aQ@{=#CJ!zt9*1mDr#W_hI8)FNLfdVIj4Zl64~X-Dp+yN)}K
zBIV6RmrkyI>Ci6+es%sA=hwdW{-%j^o8@z00^~fN881?exses$!;bqMk7hyXG|Oi|
zNjGHoW%d=R=7o+G?qU3X{NppAq|NfFO)oMzZ$}oImfDx+A02!`o-Enn!XOV8JD9~w
z_bz=fE)U)w0mlC4yx4-Z6$G%oYFJ)*=y`*0+n~0G^X-sFo;w=<z1ZzrWB-D`6ta8d
zQ8j(|iBZ2p-CF!%yx6Yt2SHB^ZoDbD&MA~8@tC?5V>BWvR`{9_MDFSgU;aWczsDtn
zB(E6p#>B@$-3JO?-Z+7&WQ@I!)ZxmzhB^T^;#7=#o4*Lguv3umLwJ;o1VMa)?0-a#
zKcV)L85yWstv6arhEAft)QUX5yWMxXKWl^9h7lR;<@Rq7sHNjmdLQ8`xV%{@BbAIG
z7wzusaAvq<0vUijO(hGKDCG8*tXQ%kn=9L%X)ocPuz+Uz*2Im84F}XV!UQ55pHWeQ
S@O(O9M6M3FV&0%t|NjAFr7k@H

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_58716.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_58716.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e518920c2fbbc1fe56ac1b934267c781a4e0fc5d
GIT binary patch
literal 5860
zcmdT|OKcm*8J;C~mrL$0R}%Gp%XVWkaUw`|V!L+hBvx$MmYo_g+(uTx(%h9qiXxTe
zN{W<Wv2IgXObU=r52o4zW{MQCA{7>Ta)1KqF>MbOt)L~gE=nLiR5vAdFTJ$?EV&d#
z(^2|5bRf?DuleWy=k?9#ccSP*P%gwi7-#Ab`jjwM5sJhE8->sfBqNy$qv67r8m3I%
zHfbNGDWp&#(~s4(@Re-}9kRTXsbqU~`6w;ZZ_>*}%VCGiC@54@*04y*>|^8(#VK>}
zb3R7zsxBWDWd2Qh*j36<coPltHl*;SScEysD{hef&l`>xhh9E$);DAk1A*GI7#X1L
z@O$vFjf|QGV^=64;46zvEf@9i+8r!yCCj=UEbS#r53a+~JVaF1g074K!MtK=xftC%
zsN?n6gKNH2yP9q78gM-pCcsm?5jSAbq?$0owb)L)nZBFLVqqVR1vi5a+Oo!tGPOc4
zlktQSau&YjwN_%Pt-#VqwBQ!(nuj$S2MXpH{lF%pQCkbN1_>2!#Z0^nv+;J^3YKl9
z{u_ubu`bx+c1siQ06)~k2tr`*CYjE|OvXDQ;%(k>({>NU3U`{eT|10K2kw%Yt?c97
z*ajo%C`HhNdvJY4Z=9vYm61CwO?+2bzg2c8-i5ny*9vQmI)&zt*KuAY3uJ?=)(t{=
zZ3aE*k4+d%R2x^+F%X%>OQ{?XUWZ}R!iH-~jgG1QNncPlSikCzj41{kj{0TLMhzwy
z(GK(*OiYWaig&l+n9@|Rj6pLXW|iRBxK<EGr!_-}X=+ebh=K3QHZE*PMO~qdZ>CZp
zm+Zk)S!=?Dx9PxgCVIse)BLJNqNZLns3C(IFsMr^S%xavKL#@ul);UYe8Rpf;fVqX
zG9cOL=x7Yw7QT=;87IP<U)kWy4E!+|ilF>@%wT7IR|qG}`qbzwbWPGETp${@IKG$}
z3=A|d9nF{nZP3c(m6*Yqc@ZxrMa*KmA=2)h%ik~e&PLUV*pxq@^p5)j6Mk(x8hP43
zrbM*fm>THSl*y@H;Ci7aMV5n+F&~7eMI*imMU5!oXQt+Sptgj8C`{6`hY$5V2MVKR
zt5LyP?T4_)#*h677L$%1?n9!KJeN3^?pYVw^_T9|)ZGxTi)sIQO}Bn}JC_$5(@j~i
z`@R16kGy;2)`eBa`tHM7@vwd}_gGC{^rZZWVPaAw@={~EA=931c{(dStq<Pg#pI#H
zq155@Xa;9H4`e+Da?PC?|3f<^c>m&kYN>AJ#oL2RgUjukcEmXIyp-CX<vaC(951~?
zr4FVXiLdDcd9ew)@a)ou3RPWmjuRGemTUXWPI=mMoqIADKj_PRb1}LqWIK-$;n(!D
zn=Fz@RKfH>rf+dDD}Du>@U`#sq%NlRCXS~sWd=Uz$(&mBW%>QLX0rUV`oR5SxJNS=
zS3RE)Nku+6sVT>~-+C>zXJIxWrT1sKC!n{Qy*Y31D*a3Us$;3^&atfb6cG+m`rv(<
zy*7AtaN%1iEwkqj^xg+BH^{J)eaIG8o!UkuF0wC_h)i~cooq-}RkUd}5+I0Y6%P<5
z`nAG7xq&bWS(>u1Mh+0OgsPxXnYIc(jM`>U%ytHSkHS=loHP{$&g6Ztwk(UPw-WQz
zXD}TSD;fi9A--%Ue$-=H5qkiA+>ct1kqoQ!@iPiD*QsBy5aXkb5J;=sYRXP}I?@l(
zRq+d_J=6M_KFjj1-j*SGW2VfmYV5Mz93K`kd+hkCQuVxL6Hz0SY>PX<f~<y$f?4da
z?hJ7RSw6-FGZy~DX~1R<+p*2WZzp!b_*EMlGwz92YxZR}?$R2p?n8|hwe`hZ>3+at
zw#>G9%f_Ox1G}uacd+CzZ&{Ao<AO$Zk6Ex_&H&6mreSnCEcw<~F5TT8qc7b8VGO>w
zeRcg-dwPfV)%82IFWqP1t^zZSIhZXM=2slc#XB+ubN&kQa_3bCq^*)2Zr&`GYz8B1
zb5n}J%F0YIpltjD%Et4c_u96Q*DI+<L1Zv+WeAL`l1alg;<<wc9g%~RaG4nQgA*n)
zJ*k8Z2B1ruQ;!iddM2pM8f*c&3@M_#uKA{-vx@4Aj{5oyIv@vUOmH&T0t9<S^&m7<
zpCuKUMD;mR9fHbm1tX)1sw%Q?Ky4>dG8t+osk%tDbyc9p0M29Nq}c|=Y9B}pX9*qE
zA>h9Xzu0e0Slo0YK}sG;9QkR(&9=q1_muZ1-kn%$?$7f5Yjpn_-w!a6JeoL~?zzji
zt<i03d|R%z=|=nY_O$<cmwqPaa9x|bI`{oIQvSP+rh9Hraw0LY*4m#war5-zX&^H5
z+1CC$Pkglh!~Gx6{67Ah_$TgfC+vBtE;*N&OMBA07QUPDyx;O}%U$WoHSWnZ>B(GC
zSC@!qTqS9q<CD&WGu4w2^cQl?Z8y0^F7v{V#RYpo{FZR54-_sjxi7IV)tB<W{fvI1
zj7_($yY}cO@?0HQadoMYEY|}RFQnKT!gV2i;ktB}?^>g~*7&ZxyGB2C&t3mV_nxeK
zPv*k9d#`>fFNi;!NxqSIBi)xCTbG_#VQ=$G{OSv<v+Mhgukp_VWYYDii&?rg$MFl7
zQm?=#=}Nd#eQ%4~NOw|9h$;U%2hd$kSGO*c*5^3qLf?WvRhz46g1^7Dhzz^g4il)K
zQ4heJ2H;mJWZjz(ISw^EtEo7G<C2o?ahpuX?ZDGz7xWTTmf9mY3TbQ`rOKW@RbUjJ
z4(xIfn&V8F$10!-PqcDx)sB7Qt=LPPE%R38Acn2~uXuB4B^bsG92z7$hZQ-6f(Q<O
zM~Lk7ief=E=41!i;bl?%w?^#?Bik`5jzlFpVNPBDlR5p*qT|izgg8|;ZvSU%W5*c~
zNsgEUz;T}s{uTCH5W&*e&_TLERxX_S)3RSB=dQtPN=)+w;0@*LD`)ymd<s5<W4T;>
zU;|Z14thEDIPv6whb}ymv?4qaE@C)F;oWOKcjpx~8Z*y(g9(JA5yk5ym+OEZo}IyY
z#SlxN;3J48#gx~kl}JGGg_X#dHogT#hBFwMf)^~{O97-zXmY4ZY&xvPV&uOiCCn+{
zjoZwz<X`;`n8e8MW&w0KRM)7V$=5gO=kkp$`pbDwgFck6ZP3p=6i{s=d6?z7`cx=$
zd~MgkU%m9v*$>aIedE$YhOTAx(_jKHb2)Jt&hpf`m4@3LOC5J+K<Q@nlc3~ll20X`
z%5zQWjuqwh<kIA?PlA$X^%D>45#wG6rW-Tux90C0_=G;bDIlp9&i0P(o3Adu`jgB0
zsfBZJf`7RvDtuKs0pImzTJ`#w`!x+aCbhG>hGzZTeX;J}%U!6<{gHS%BzW}mCX&FN
zge)=jBvgh}xXU~fhX1Qf!+YJ}EJ`&Ow>=cp3}+x3iD}B~Q)=;Yb5V)JqAEP_V1bfL
zhq(w0zOZV1W6`j@gv`DQONKi(8I`BQ%GcE(7{f9_v7bY=X{RXaQzZNeiGN1zdCGCE
z^=j*;t&iHb*^S&a$&tj!W)I<Z6}iuM1NXp=Y(l|ml-f^8Ij1|>o`8on(0QRYIg}XM
zWPpZuv8Qp<K`0K@)^9oq<w7pWwB`vXAeO&2a&_c^2;74Zg(&fJE<{nD&qnM>>R5Mo
JUgga+{t0L}+IIi|

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_600998.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_600998.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a624365fe67673ff967d99ccc7c926a134c85af2
GIT binary patch
literal 5424
zcmdT|TWlN06`duQ<dVyWB#IJENp@@`aoEIGBsrEXKNKgnrRbHH6F2gMptviF6d&^L
zN{-|uuqhmr0s=_+5``ELo1ap#0Lv)Q$Z3l>K!K+1N4b>|6I&N05PwvEa%7-Dzj|lM
zrD%nY(zN~P0NlBcnLGE+-aU7Qf3(>w2->yrPe%S$h0xcS(VDqPY&=IGG=~_(5D_$3
z=!ro><#kd0AW0yW2&;CqsfC`=v1Hi#s0?$A{xNd$F>*s?`7p&8uaeh`3k;eV8)ITo
z7~<I480s-{^JC<e%5qqdzG@gWm-fPX6%AT+h_#fwpeG5heGNM>pjam20soMX4^6QO
zJrZIVHdbIvFZI3pa<6Ydp^C&nz*gq731~h1Hb{8RAp!Qk(84;6+UyzPdQqRSZ8K6=
z8fh18A~|J1DB%$8qE)4;%4U<B_BBdGFh`F^PJu|X6vn=8X+nt)Qzf!QXfqSl0<8%d
zLaY|)>o{g;C($f%0q8`HSX1UxrA#7VR&h_TR|%)+6st!;lBg}4SveX9o&n=aF^RPd
zv830$NVp#H&mvki%}I3OCah2=)|IVM**oha-qnlsqDA%2ExI6w(EB<D4eNGbKTLRM
z#d<8o@}iW|_B*iyynA$p`_ZvekOc`(nMakP)`>gRs67l>7HNa%5S?4B8?=?b<&#m<
zBpSb$PfcY$*&);|O(eud)u#rrY004NF@Zk#1qpfZfssU$$ZH(n@M~VfneNpoWYo`(
zDu%c)!g4{)o|oV-WO*q?Cqxv>7#9z6{-`g+C}bq=XFwWP4566N)~Xmde=Nu<Mt`9<
z@Istpy*m|~5FdqaG{o?}F@aM|@o_;VESK3(aHK%nc!3KstWO=vD|C^Cp+n`&BN|4r
z7l#!LO>E&A4yQhc-xvpJfH)&O6vJ4E@eLKa7&tRL%=?BkA_fG{Uh+j)ObC8X@Wm8L
z9Rr>z6y721qhf*wjz}BDC`NS@^y(N!p;f-%nL?|=B15s!Ar@eZDO!dgi<W`ncY>2o
zd}sUT`R2=UZj>MM2iWEje_+%vjKpL6{6RJ*H1k}bSzx1M&A>Gm77E3JKG<C$9`lW|
zT#SwEADi@nS`!B1u<-|<fBx{{L!eQrHfI%vbNj(1j7a<(WQv3yT9M5$(?8vx+P!LR
zluq5V+RM1S-8nld+jmP{IiN;l`%bCrzP)NDI31jgrrAtXe)@=9cVyLm^sc>Aws-zk
z_dDtfYSsP<40F0u)v2!Z*}KktNmI`0x%S4wJM-_PFJ<<wHnqym)+Cj4Hl%{G^Qk0t
zucmfx?}vL+`!aiFPs?)mN<u!+Cwuy`Z=TBrm^(FW(saMRG4*<y&iweR`h&@?oU8E~
zw=g+BnW@fnukLz5cD;~1opUv$MrD^5D9`SXcc;&!!P<{97iG_pmEqfG{?Ky!?5%kA
zwTtp`5M506<~(~oZb>ugcG>f6W_bC`XD!QT7vr+$ShDwC{f@cIA6`yPWqRdZ?JJ|%
z*U#Lke=FIYckfC+^GQpF$+XLR+LlM<Jtt)MiQA{YJn-k&-}tiqi&wL6`{k2<+3inu
z=jwNTOr#H_O>+G+nS;wuenu?sUF?+WJCfaam%FFCXV0eIm0f!??iK1Q>xpli$ld;c
zMz#Al;Qb)QtbRX*#4KbRujp}p897!M=VAf;9caw~1pY!cehDZrheQ<CG-dsH4Eu(J
zQ6wI#H6<v}VkFtpgc4YW@u#<?m1!#!v|-%@;&nafCj|KQ-L@+nlFDpXC?RFGNvT;V
z?Mb*2kQzjzNDb>NM+nji2csoI1Kb43=n`hZsfEty1(!yL>ojV!7b&ffYb7pW5e;Q?
z+?!)H3j8x`qla|~T4*R~Xtf9;k%V%9!cCfdvu8+cJ(2uDdc!vJjU_#?js42{P5UO1
z63wFJdhtj{KvZucuW4XWrx+MvatsO&!%l<(?AnVE-<kvuwYqUQxz=z7c^!&@AMuZ|
z+(F<J1C*!0h+-OsIwrInED~+49R4oUns)GjVgM)=Cb@Pj(nmuv#aKX6#SvrQh0+zj
z%yPc?u&-4i159W_g-XR(C`(=|_dLwwTJU7+L>$hnYDIzC31`?L9~)!fOXXUznix{_
zP<Sd<EHVhCk;i#lUKY50c%Hcg)?6>}Ps5M*s3@JY)y?>(eea!?PDp%i=Ti&O`KU}b
zNIkQ3j;@(GHht{cTMHNFFD#w9(ZATAZS0Wgjx5=cr8{zT?M&x%=e6;LEAv-C-MiSE
z-FZl+4`s<iS^7}kWRb4ivpZ)-r$<vQsX+Qj*3-Ov`P0PB#FuCPbn*8W@7T{L^?7@h
z)OF8MGuw8}c-OsOcJI$zS#=*-bsUwt^H$pj6Ejz)ucX@2rd7u?S=uX|yieB7o{>pU
zj;fw*OPQd%OSxqVD#9w&ka}}raDFgDd~_l6@{OLwp5;r|`&ZgN@3_@*+yAR$Im$6(
zpSI6lTBUZR+82(`AJ6PwZFnw6)y(#SZr1&fHX4lUc4T!(JzO*FQ2>6WR=OCB02;!T
zj7T8(Y6(W4&@p5}4?J0R*s6d<q8`35-7ryhL@yy<X%)m6mW<bnSd%c6S*(DKa4jge
zRskPXYsFO(#xiRa&`{L<Th>fM>DnY>^uy7aG|veXLV)+CF#bxmH0`=3QjF;+=*qnM
zZ|&N5dbX`s6!wZS!#lP7Pu}T&<{hniXH5`g`}Tj98{57C8;((=0J-f0p})iT7DA93
z++mQe;midX9cTR93z(z@mKS^hKhOGF%9&Ob*Fz5h=E}uwYiNt)fS2O%dWs2dBn(_q
ziqMX^7<U|N3{xx@=T+=f41q{I#(K>v2rIS{vig`%RB-@0kF&7=i|+<OVT3yk)448e
z!yJl@!IcKz28@M6R{_&a9LtYK1fItis1kG+aNDlNR$79)07JUr$1kYhy-uN;I;kgL
zTQBwJ>vl-5=AAC7FJJAFdf@b3T{ma@(3YoaXT#~v?4AR^KJ|I;t={ZwZ$C7U)kf(R
z7y|HoZu(pv5U_vAb)#vqX=MVGcB6C}lyue1v(wM!srppY5_==M7`=TOl(bQL`C%<G
z*ps1DUAi$dwbFKn>|D1ZN43<IZ+ZeB#XmYHbtU@&rN5sSTWoDL0=8?_uxh2A`&F)O
zgWBGl%PsZax7GZx*sWV*|CYZLvO1*!wSsu{0|Nt4;c<R(FTq1`6ix>FBXA2Ihs&5k
zX%vV5l2P>Gkf4|Y@fa_#?~ZZBqrw?B#>Y7|0o5c>=t9=`g7FBmh}5+TDMKBN#+mU5
zdz@pz9Ha^2e*=$oJwXs(BkNy~?XReD-H3G5Pd)E>)^!cUO9Zfcp8R>^&l=ZFMfO<d
z=Y6;OiY$e8?Ouq?N7l`%mO|}^KaJdse50}(dZe=!%se>iA{;5#LgRenIs$Up@Tv8t
zRVA~*$lV|>2YHoSN9aY}DcwJC*Qa|>=r-__jiZRLeM5x_!ujC59yyv;?K|J2)$slW
DzQLO+

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_605163.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_605163.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e85c49951f1790a6976b74fb24e837aaf92eb851
GIT binary patch
literal 4520
zcmdT{TWk~A89sBf$DZ*$_r#C@UDl-`%Pp|GfrSmQOG3g*U9ENlm1R5=$Btu%nMnd@
z+zu5|<5krp+J_kRfgr6!D3Rcil~!t>+n0E~YTZ*RSy~>Nm&$BtANth)j4uqqDBIgZ
zPvSHGf6jmY%bD|k=bzuXTuub-w~=2>-0&du4Pk1{RV6mv6hg~LLK2lkW0fa0MwvW4
z#f-5OlBtBLr?#~6lxUevh%b&2PGVj$&Ndz&w@KVh_I_2-nB9TMpCm{&86~_8^xI!C
z&c9-umL1@eLt<sexF|Vpa%0YVw9cDoOrVi0)a{GcsF1ip%#LFFyXP+q4u?lEUnNGd
zSfNgjTsVE^eAHoa&ki&LzfGDZ8>+#!R$2o1txcltSLZX1Z6xWsq*Hh3_Ujx%8NsrK
z-KrZQozjKtFl>>sy(}eBy8V9DHzHlPBkE3_Cw8`7&s*1LT)Ne-?_g2qCc%Ejt-Ex_
zq&!-EN5Qx14xL6n`Us@Fx?A_QgP$r*p=(GND_q8>`*enQtGh@P8NbErMtg&FKatZt
zYfR1iOh6ZOuQ|$EG&NZ?HAn!R)|<>V0aF)w_s}Tx^N(5ZFT{>2WOFx26d?+;QxSDC
zWW%(U#Lj6Y9aADx;kbm^WI7^YTSSSZVlw8c4^>Mma;O<Q=j3>7LJLo83bw~3wL+w4
zDkHqADRD^-&tYekf*I^g%}j;0^rW0p72=dac0qv+LYSEbiyU-e2@9$gQM8I6W<WQ#
zrN_rrGDBRgYQQ#=kuVj<ys4Bp&CP{D7BjPQ6mw}ptIeRlyHWecrM|heGO12SqH^Cv
zBsv+<Ceo?iNK8&?eX0`e)8wh?KH&P~smrn?#Z$2`gr%iZ;YnFZ$;tiG*TOJe8;qtQ
z;{G>|9Oyp;GuZolRYhFc1)h*(RR0d0fu1!X!L`tv?afgIXNNKPSadIpWJhv61+mLG
zQ}j3I_@({E@Dr!Fus6GRac^!o@87$&>p|#V=;5h{R}0@infIS8I8PaaMVEi^Qr^|`
z`MY<|-8r`!dDvChb0Y6LVVo`bgP+rP9d{h7J*yuVy8H9~{zn~o|DZ8kbOjbC@~$1m
z*(b32*e}BKRMFFsJMig`|0w#3ftJN9Oa1eF(c6|gmiO*n8P9uvFwZ@9dlzEa*kWSk
zNWSIu)!DDz{qs!G*Oj}nv~y)B@7@2fCGR~7a=dea&+?0{xg#*Kd-d$^`9n`V$Q|5-
z$Pu<x4v*4C7zU0;)S8n5jGB1$3{L1W(oupe+R`Ly@^zANL+GcJPBoOEEfRD?39Ame
z5gLN#Dh^rAOAN_&@T<`rP3Fd}wj0V_g0&f2#ts%p0&HnD(9iHXXEbZ%(3ma3*Qn>u
z=XjLiERv0If!Em@vTP%1*SVVHI1M*J?NUa%qY^tHISo4im-p5tF*SVD>22nDozYpH
zTVwB6(Un3v{X-PuMmNaTDkN?bt3o!#Pv`*Ynn?E|euQ|;rlj~3=G2MEG@unAjhw``
zO1ffCO1=ufl%A6nfQ0Zt%tod7teKD4RspDxQ`tlGk|U{n?_~>^3S+wzo`M`tnjT;_
z1`wx`ZGH|eN)NEuQO|tkAn-(+`d8=-R2GrwUwAwFcCP0up>v(>To*cvf_vdu_SoW;
zPmiy&ZS%()@o#3|%mr?@-)dhuaI0%&_O5<Me|YN7PuAOxekB}TXOFH6M@zoe<*uc!
z8$-q^W3K3HT5exz|E$v(D%k_;_Rhzx!9TS2=39GLV};iKdGQIjF`OOFIal5<h`o=i
zoPDLMAnq?Sl=y~m`U%^#_+g&yDDv(iFOYw*5L^o8t`vMd01(S>ExnbCe0IDT2o}Aq
zMPGZdx#w>ICub|SAkkwCDZ3%$DE#WJUWiP<+k?uE${>l(P!f}&B{stV&sr|F2FYa}
z7kZr1>M9fD3fa;mZq0VTnpBVy)yo>8gcW3}Yjh|{EZQ2Rm#M94C1bN_Ym{L0zogA>
zNh?mbnbFy6o>M4}ApPx)Qm6(GIxpD=AQFpL|E*nnp70Gk+tw?dcqKXDojU&~@AN<O
zPB6U_Gn8fD{?E?Fwr{{iV$^v6Q}<~6FOY9>1V>}TfYA+dasdKoq)3RyoTOa?#I#BB
zY&<GsL6cQ29F3@Q_<)r;XyS1E8Dx`n_|OK_l`o7O1}x^FNQ_QkJJgI&HEEcG?$ANA
zhLlp+J`R<o$zPY1v}$4`=Ay}TN)9=&b2c4~Tn?-8>oRuLfiz6O-J{A^X5>^<4kzVQ
zOq;;sY#JoZY7uHbSa~@trzBDbI^wBms6_#wE3i&582pjdnWUzw<hH4Ub_KKDX54jq
z%6Sm^0DkIih!239NB$N7)23Eqq}0-GTqp&ajq@d6voZ8cM81|~*OIHmH$h?a&ibyy
zU!M8(@E61DAAIzTV|_N`9Ei9B3m3B&OT2$^WUcu@@LurIEKIs>##xvYybJrX`$~Lk
zF1RK?n7TLho3k(}*o;A_5jppKJlC?)wR-*0p|9C@;0p2hjQ2{x?%SW-`s9}vjrZn9
z0Hwd17h7~~RRX%3%&?k_p(ozvZG+lgU2~f;0`=v;7rVGM_LuzSkr*&W&6_5~nB~Go
zH@vjbkV`oMPh}r;*i)$j_9x*(W(KNz%-1M|90bfH;u>~D(<xPxuTCq~vfxAbN=Ym5
z{gKkl6Kb9aEL4tAIF?RI_mFA0a(?&$C=F(k@(Be#2}w>M^$Y0WE~Th%koYI$`ZMY(
z+YrtFtm8&UneLzt!*1{Fxt+X~EV~HjM%}w^>$mi>hj3oB=e4^7cLu)o0k_E@TCA)&
zNueD(i#xiDyIy-L?4Uf0@^W%1Sw=t>18vI#O9N#F=u(yDfCj5=on<?rc+}oib`Z*m
gg58@$!R9E1DA%`qf}#RXFEPjyEVy^v5X{j23G}VA=Kufz

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_620455.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_620455.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..665be90cf10122d170963123d6bfb425d6f8e480
GIT binary patch
literal 4637
zcmdT{U2GHC6}~f`KmUyF#Q6oX4ZGW=29iJsEW6FJ-6e$o01H~0fMglZB(Y<A!pww_
zbSw=L6>;~$j@l|lyAlyk&L$GPHAt13?n_bof)&(8cd2A)d1&6khDuc*+MYZ9!DLOd
z{d?$@=FYw6+;iqT_n!ORJHHb}2ZHj<_<VT4jnG%5Q!4giWBqT?m_ZVfs3;mJyr}`o
z>eDgX07D^}idcS1riHge%S^=evW)a3TXp#$BQZCb`J%x9Z%2|-Vr3NZR`J2TLe9TJ
zE>xEf3X=UMJ76zI=eUUm95j+0WgN~4%I{hw5c)9x;i)r+PX_w1tI+5<eWvHgsgSb*
zAelBBJnMUCGHp6l(nX-Zu}IW>QJ-)cPQyOQqDl*9<9L`n%COHDJxzi-;WAtXKLV13
zSn)0Ho0bM;xQK-zO4I^9PcTABxGSuLf~>MO+!8f%8LZp}OTID*c!{j4eRaH!65fQz
z@EC%H)oak;1(NB<w1fufX85GRlIRT&krH`P$`L8SZADvCfwo$VH4xp)UcE2-Blsm-
zMf|k}GF%&MY*mpkFCp<&AgPl4hR>+|Hdq#z(o9ll0{PiKl`O8G#!M`zjbK*Mhh=rB
zv?6{=B~kl1OzTnX7*&-aH5dzoCCmlYV0=i%OjHR<m>mZz8MB(MsItEf^U9bW7}ZtG
zhb7HwIL77h&~QO$*K{>3$pJ;f<z}qh9DgAlk6{WnK~KO+dzGY+O4c0PMgfALD&tx}
zldobs!5$!8Y}b_$ISvRl%!QPw7LbZs(!ty~0i$8+I_4CssnvnM)+*(%mpjH4bwnEt
zhUAXnU}z+$4=eGu;E){GJ2W-aq06z+4(N5ru`9A9h2uj32uoMufe~4a%hC4Hi2$fe
z!jJ+HAL!iEwSPZou=j;kVYs>-fbj5WJ0WFE^t={1#Z+6eEki9kwwQ-kJhkbI$;4;s
zor&8M*_!Op<?nRmJYD9o6>n2!@3hN2{?uDL!%y=We)fC0rk(ejm$pCl_7udzw2<-7
zUcKF(?O$xpwSAatKD^Zb=<K;=??*5|^rZTe{pqWj-OJ(*vv<YYkZH_$Tg~Hnu`%<`
z-E&!H_F`^p+kJa(>pP3ROI^RMS$g}ynTO$AH;6Ch#2=cyPXtGbPx5Il(|`AB_RZPx
zTuaA&|6<P<+ZT`KI(u?0Jr55*7S5U<<i)y-aJOc*XSOld<j)?@HSJ&I7WFUAEsj6%
zJoM)dp3gO%&xsenCBxl1cH`L8$LVvgbozVd$U00JB!so#g&e~+$Ue-evOcE9Lq*;p
zqmT%X#g$o@;#>R-GEf9s8%v3b6GUHWUmRG{|AaTFNL3CZ{F1O4wArqcCACVV3fm=l
z!!}5Rmufqjs&<%FFbOT$5{&LC`>%3r8MZRtvs3&a1qYsx;B;Tf#^5X_q=AztgO1df
z<S*V5Tk`M<Jy+IKo7h*^m+i@17>vO#@bks<jY0-}9{Gj7)xSfTqcJP#6QeTbB>7r6
zB(Jst%uwa}0dpe~+xkJMeok$68YU?N&Nngxr4wV2g749N7SjMHa)k|znUEB|W^tsf
z2URjl8ez>=Q*DJ87P_Os*cB;wXmV?LSGRXZl~6FM9fC$d*+$G7q56x7K5MwM_4d|T
z*jd^BInQ$Q!Cce3>g%Ah*m#x1<fmWoo!^NaAtkPdhsKmK4YTpFm>dPR9S*{5u)w*Y
zVax&@=@aTs;$#=8+M&XpxO^Q*R~eVpfHD~9v{(jn1p@X9>KkO_o22?KsTxQ{GQL2w
z%n<N&AzqTaMV9<QA!>U$R`vU!B<QtYKn3CD9b&3I*<Ro+!I`or?VmW!4_4fDsc15q
z>CCxbGmqwZhxwx?ZeMC7Ig;6%8OrR=4&IB-MVAiz=DlCP_t<@I%9eL~&7)6z&42Lu
zb3T7|$Fi@}JoTmXU9;yYQ<uJwW45da&Z+b1x8Rj>BpvC!pNMH~W^#IRcKc5gD}p;E
zCdG7cS!l|<b*JriTb5ehvU5eSPrbe3ZCt6}{%4VAxiv3xdCU{m^oIa{xsaVp=3;#q
zYPgV62_(@83U(bWF$o*=nTj)+B*cbd<ug4<>1BCUwqO^yd6KzM5^ROXYWEG;rxo6+
zFp5OH6*&oZdU<zLWf)+df598C6aKV{!5W+u9bZCDp)g7a1|KQ&QE4pfu9B4?@!im_
zK=t36wSS6iQ&a*$CD~z39siRx{m;-jEp)B~RWWb>XSuQI3Wy{|Ljd-5_l5ri`z?$h
zHC9cKu9CA6D0oZ?s(#XR>awN>LP1Rq?5*r{TI3mi4mn>b-nWW2NV<Ud4iHZ~++pG3
zrehYWeVv#k{W#_a;Zke$CuLR9EPBIiD5}I|za2ZS0kK~RXyHj2i)9WBNZ}avz-4qy
zj)&wxRE`hn!`O9Afst@#=;Y1}mRACDTq13II6ew@WVp7xpkKfvYhzJe)5uR<`A%A(
zTelT;`FrX|Fr)__?G8j|qBQ~4Hkc>!b&clfd_%K&Chw~^PvvXs%@faEsHR~?oEGy!
zT{<%R{-f8setG0qCm)=AboS%tEK|do$6*K%@ulRYyil7yy-<IzWv*rM8YtbI*$Yai
zH?=FdD=#!=S{CGcvANh%FDRXydH8u9V%<~WOvCK9?BwFU$ISa{F65~JdT(jH(|^1F
z(@W;jsnfvJ-wwqFUmKl(?>Z~2I`hO+Z~dl0ZSJnV$vpj3to`?5cWsRQ8+Zle@|k_s
z+2W`A{4Oi+ibr$da?u`z|EMwet-wO5r4nApwn$jVb~yGmUA{i57EkUAa$HkXD<!QI
zz|KO>1csETG=~b8h*n}RbjK8FEGi#T2cSz10_|r|t=TAw`U<(eMB*ROwlxmX!mTYg
zwye>OR4=vWKyGj9a`N(;)9SjAuYP9t^zN@k(p|S9+EpBQ0KKu}nXR7kr1#HsPj{~&
zXlCp0ZJXO>HCKF1mY9rK*|q0h_gwcnX|H!9O8i=gP?Yc4WgGIeEW2O3;j~cy1FSsh
Ay#N3J

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_635331.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_635331.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..84071bd69b7ade512dfae4ec9750b50a6f13ab6c
GIT binary patch
literal 5395
zcmdT|T}&HS7QSPT?Sb(RU<{6dq>0+5-Zo)@B&39dO`8S^f&L_IwvfbYJcF_E51AQA
zA!BJ;Wwl1C1bxD&k?{6qO@lT>D{V=;QWI&Vc6T4vvqX(Go0Tjz56c?~dD^EvckD5a
z>x8Pi`><E?%=x?Lo^$8i@80XbSS*zYT1fb8^vf!QzQc^xD)PkUO9Vpmh(QbyLW8+C
zF-WMqF03CU3B(dX)sNOS_hxh~88kmG!yKc3f}DJU+)!RVLNUfG<hA?&gC@qpm{=5q
zJW3lwJwaaa1bJn7IgChOF$`7|=E8gh4OZ$9TUm&Lo+8}VbsWHeQaKs*d51lGV479v
z(E!7+ksM=s<<uLm_IU;rDo+gfEJZP!fY!rrlZ59y5@7ywEvVC|tv5ql%j;v7Z7g*K
zORH!R$!P;ZF`H-=%_>z@)SKM$uTdg`K6-394I<4`5XV~5gaRL=3S@!Mdd8{+S`#va
zSS`}maL&+9pgH0^(6Jh^rYNRzl|(?V{G8yZVs_CkR*!)sR$J7wd^R@R1MCYqiM0%|
ztk<H5IUb9zQZ#Ft6X^U67@<zAD;lGGbmqsRs~79VN;NvC=ztnRztk~kM7IOSVZt*j
z)?+D_=cSZ3-?1GK-Qzu+kK0Z|6~tUc5tYkYC+<+Qb}?j8rVXM^w3m1{Xd{0wCZnc_
zHU6NOnu=nwLaHTAB*aEFrUtQT*`Uoafj;^j33c$1kwjC-Z5-h6XI{sZ?$#+}*vpS8
zhNv*ga(>O9o8T~HxhX{_gp|s0F6!sJVNZZj$WYYFfHbNY0uiCDRWWehh@VxA-rU>3
z3sH`B?^G;8bPU#LfZ;vk0;iaw6M{-qUSb3O(Hw2z1unp_9@Ugr=sXLi!^O;F8b-0^
z&2o+=OL&IErO)9n#z7e%&Ik|1Fdkq$!?{-kf*Bd%J;NFi0fJ{QdO|EF1TQCeA_}G2
zKx7JqX9&lrnBajk(ySQ8s9M2WwP6%m<#UlKv?|Oq6dN990k)XDXGk*d87O`y1o_NU
z+rQ2=Uy5>L{J7W0HjjFJV_so28rkRdvk{@0=X}iq8y;^4t~obQAmaDH><ZC{XN=_{
zY-s=Zln2zB&=-Y?Kh$=xt*r$#O4U}coH@52Lc)l|&qJk1=#d#&Y_t6{{fXUc=0@qY
zduD49m$lmG#$@YmsXGJIsBGOSb>FvE&H88jbKxYL3d_$Qk?W4ESv&7qyJTzEA9Y_-
zx2ZMj>tJSgCaM$N$+LIu`{JgI-F5Zt#rGE8OI}RvU2AHU?X7VtV{b_KW&3k+>RwIl
z{N9iECibQF%C44`p4FIq;FRn-l|DU`_Az&A*tqF_ePiOSB%S*CxAlkO-5E#YRc>)=
zVJcOf>RH=$P<9-QpUgNK5@WK%4U}v5r@ND9lHlzpsSC2}$m+<gGk<Qmb@pa7{pJPv
z7>F*!`!cRQpSC2KWV`HoF*UMs=8Kk<vrAFgbu`|0uYSk;rH?Nqrc-_LuJ+Zj^jl}{
z)V~w&$vSr>U-+yg#iZKhJ#8yv@}A?e^Z2ck-yHbcTW^2Ue*2B|yI%Q(S9W^iJ(>Dl
zpAyLfNt0avLh8`UvtJM^dzZT8`i^)Hp5>mIp1HG$_hrZ4lyjB()_nY-9XZ<{(5QC*
zCVU^HRH*AGSD3kK;}t!wFC)ha6I{fX-wd!ZvcV7Yo4*GXm`5TCVrfY`hhbkIBSqqg
zT0_hTT8tzmO(=k65HG!wR-`Snp^fM!5wGh-9}*DP(|wmYBo+BCvxOA-)=A9*#s;+o
z%K@ogBt_$hzI=utEpsqhCN#i}=@?ziB-phP7`@=o=wO{jZM{XKwvlUFT#OQn`#863
zH45T0Y1SjUScT9~&{U|KAQE-39iU*7Cf|B9q&A+Y`%!wsHvJ3vz)U@T{POxO{|3=0
znndba{zykaR;Q8MG_a&o42&=}4jT`{P6mAJ`p+Q0bqOBo?#AKbTE`XSwkZaF)H}{{
zhk#QIus!)k71IdpV?xWJJki$5;dP<zX@?Fd27ppwifhLreK-(Nj5#D#Y!UW-*t(*Z
zSk4n2@w6(Wj|ohwP^lPm+mgGI`ziF}TJWP4dmx4tJ!~&!_a)K~8z7Hsc?<lxeYjUe
z0g$=Zfqx!;yh}ymjHPbYGvoQ-q;y>3GdrJK3@?ObvO(&dqce2P?9rK{SKnDYzi@u}
zwd?&${prRIneIrF9cj8FL)XrB&2(LzSiHP&8Pt7Ced(QtW%_WMJe;NvXHAvT<$G59
z?AXj$q9x%=9!a~JS1x@XyAk{5>|ZbZ>B1fBxwt-St&+O$*=pw6t{U$;_sh=xsmp85
zBWt!!sV8f;d^9<GdFFDWEooY_y^yBe(uw<I?c5oebY-aOxweD}UUw;{OabbzQ4NXH
zi-QY;DdLm!saLP}F7>Wlyw<<k_EpEtj$7U@k7g*_taZjZcX5r{k!W8$ws0)9d#&N6
z3{^AN2f8`uBid*%Zdj4oCiQa7Fh@T46<Xo&KMIHk*DfN4U}X}F9#$wB(*sWy9jMCS
zjfinTH$oI0!wcwE7zHtgW#hFxp2Q4A9?Re#9Q}*EmBB#OTYi+7vB+B)#KUX6D7Njq
znS{dCNW?1(XJ^tPCr|(Z?wEpjC6qMnN+wc_sS|WXQT?}O?WvJ%8x@74Vk+R9R{l@E
z>3<d-twv{#5k>R%e^wjYegO;4QKSH!tpkC7!g>oJC=Kpqkgns(1*n{0yxc)d(gMp1
z9-o(IJuSsdtBT!$M*wrh;<j~EB01ouI6R(Wf?Edz7m+-CV=lrS!y3ah%SCw=I~9X3
z6pgU%3KfDCO95FuOdzb-0GlV+h>ykRf4?xQm?xv~M}v9|fC~@&@i6RRBMiR$R0Ja9
zaE-w?0Auc;l|y(F$MO>)f#>n1sQ~0T9Ji{u7KY@`gGmqk_(c`WHz-t7C-r7)>!to|
z-45xEtlc4<%2qq1UN~`A*Uei#wq&W=xnQy@z30FmUi+%=W?%ZvcOMzZYNPZzm;hW4
z%?xD$5&M@N*PE7_RwqGeHA*KzNmtFjIP+qbs!ud6v)98*;aev`NgJhCAJrm*H6BRR
zB^y)It8I74t_?G?RZHF3rf2Z+`;#H5JKhhd{llUt@m1;seAlXJ)k?khs~p=VwY@us
zQ|iBOsrhlan@e;5Uc3}C+ob_@M{yGaZnIi#+$*@SY`L?*{t(=IC*b;}P#VSIKVcMo
zFd!%uzG#FO*!Rb|{NdmX8{wmzT8?T7D0Hr7JpO2iSwiYaxq_iO!%=1;#2({Va0f+#
z_}{`~Lr)OIcgXyAWcdeb+%O^?^()s0t_@uS@d^R#o@am4`0K_EQ=UEA_0_4Hr}8X?
zcI{paErd2IR4s+tU;aFFBlJ*ZH}yzo&bfKe=^$(g$716`;|2n9#qhcLhFK+V9sIiU
qcBe|FhkkK)$S)81H?hrTCn78lsUShvADq)8Thp3#=LfW!&%XgXK9*Pj

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_64602.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_64602.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..368ee229839e47e3f8285c74edbefa2ff7fa3251
GIT binary patch
literal 4755
zcmdT{U2Gf25#BrAFUjMNsDE3w<+!pLTaqQqjvJ^>9LxW<TsKAv$pQ$PccMs<Jmu~r
zS?aMk7cL?;529KWqT2vgg94=@0XF*N0tK4)zL=2F5|;!Z5I<Beg&e6s(U*4i_+v_?
ztNuQ80q*V0?99&W&VIA}tsvMDw59KUGWJIoLSJH{+=S9#lOqsXL?RN27#c2qiDAN`
z$+&HpB9KHxEjwk^;#VXkD(c+M!<1;N%^#&i>OQqnQW$1=#3NA<X$eI=HLNhN;Ik4h
za`59{A-C7&k2*!ieR|kliPL!>4Le9AIVv7GX9&M*9lJ7UvhQ5Gaqenh&~z3D1J`d1
zoWB-wR5{AP*ap8%hQu4F!8R6K6zH8zBvwlDq(gV;{49;CHK?8QVH*jZUnyCd1#!};
zJ9Ty(I7y*uE$qdPrW3joYv_VVuG&_xkI<5?Dy`b<*~{xC-MU-nthGE~1(M?Xq=-hz
z7O<mxFpW7ydKTi+UEAk~#P|q8wIn)?tzt>itCKtRbQ<rA?%uwF&R{N%$l8axsyJ#z
zU#ELTsw!@uj&$dC|8!f;b*OFY)K{&;;T_!G^m^T=dspf5{t{>g`I$ilAKCg}q4`OZ
ziU-wkla{qHNeP$L{e;58*iW0J7BlS=iX2vg@jyg0nV=F(ge8-T$wASiRZUhTe}l=&
zlUiUxQ%p7@s@A|hEk(j(MJBImN<@?bvT9a_@yc-eC3iY*5|G#f0V|aioE8es1JgDE
zYjcV`tp-%-eUryd2QX>!nmjHgz%|umLUK$Eh$Sf|OuIF4Dj37APh-balelX#vNcp2
z!1jS!?Ju{xr)6baod|}c?y+EKJgAMyiOyhHN@(4x66)5Z_(V5Q-BSFHB#MzlH~=wf
zaw0G;DG4doH8B$aahVyCA^cN)r;hi6!1TOSD$Z68f+Kjx)ow^T18vnIhcMrn>dX*p
z_EzIu-d&geb}IRi@^I$COxBydxVFD9=k7Bu<vq=ro&~3I`MIZVkzHUj?9!23^XrdW
zK0Wx%a~{}&dwwW2lzu;RY)v?9T*!MGGfg?q0poJP+xnB9jF@>N=Y4G{@|gN%@G+a~
zIGyvJ&U4-$wx@5U59henOfbjoe_<o)+Vh7xKM6jr&xUh{PCaSK9eM|I2MFWJ27_G9
z+jNF<Tt~LCXmWY~ldtFe137L0=DRKs#)apceV$FRX(ltARiAMujI#xyKEr+NT^d+w
z$~F75mvhZ0^UeD*+Q&CD(+}KPf3EoiD7W;zK!ocg7@(LBF5SB{_g?yDX83p1kxke)
z$Pg<7ib-cWr{p^URSPN_&RILAq=bmaHb_*HQ6z0rNrd3aRvNA~7F6cp1U}#wk&dD;
z+S$rToW$}HY*o)G%YVS@M6@P^VSq}~y3KIEVul4_Nt;d?T^h~_t3_*E?-Z}oqa;|V
zQTc#dqwZBf4wd3Xa{LHfFjA-9MIx1CG<RjS8r4pxE9HTm<3|aRzRx8&%~#gZISYCz
zfHFd-qWEg<Xd+p*@CrFokrTV<*OpiG@y_Us&aSd6rE*9h9HpNdR4^V}2)Im|w5ZKY
zNG2mnQ<0FgegH(F>O;o~f&<(<4c(84-708`(4i*cZ75f%Q34hv2Q4H6uw{xEVNxM6
zGG&3U1WAgwO2wFbz);%ZV{-kmVEm34JTtqef)ri-F*y{Bsb^qN6k?y$Cg}cbppP0K
z?s>3h>1LM74lTRaT2AMh-&9@$**Xr#Prigwzr(bL<b)OpPs)?3Nhc=bQVf86EC?Gx
z1DuD(Od7yVn^BH|s?v$O<ItJzgmf41T%MMcfIJ%LwLr^cirDVAD~IsRui>r(cZYEY
z`Gu55+`YtdDh$P-7&K1Y3jDrZ44$uqtb7B+*r56abPy##jl(tHmFg;jBIlUrQ~ZYx
z<80nlKOalQGQBz1KI3A6^*&`=@(p_yM;1nw+7|+I_5y1+zVo@uH$R>l&-7%%nPb_}
zN3rEtzWwko+J4ryWh30j=WJk~<LAzPZwl}hbX*?e;^)4W-~0SIpFewe&DU#O`^@pC
zG4PzKPv6Q>t$EHd_inlaKJ)gJJ>B!6kX9FG7iO2*f0WE~u6ZFPq=Rc*bEe~A=Y!5H
zvDW%}9u{~b?`g_6wEsz9X=cNNoNnWabygvWveNL)$9uLp20grei6j!qBq7?8B-~XS
z&{S3N$Jw)^>3|?QIZ9|1eoZ{0SDBR(4kqa;i?yCDaI>qd)j%W>TPvX+;7R2w)kG*j
zu7ANAtCjx^AnR`9=-9I71d5;}r?b%tf>nY>Wkl9Fk?jX|l~@0*UHgZg?dlbWy%Kpi
zQ~UqqO#d_Q9F}*^BvG|*|7W?e>j?-rMx6twb`3`U0QW6|AT`zv;I3nc0=%9SgUV4n
zbZC;Q1wuhp3iMPHy;e<$Y(dUfvrnv}9h^Qtr(ozdS$Ijq!%;J7=uY&SG^P_KI|@&0
zi=LGfS+zjWq(d<|A^CaymI(#nZ4;T5Ore650WlIc-S9G=loBB+5R(#NZR{lsn|vfO
z0S|O|A{7A|!!oQdsgp5HRe7K)C|m?#mlb8jzVa=Yasz(qLx=`|m_v1q#+5>SlX1P!
z*kar$_!^9B1#g3KWy^`Yjf=v9P~hs*(WSSZ9_;(|`QKdq)zzopd~b`Uyo_-frT`M(
zPTekWb?NJ?4UgKE+n!8;(8U-RK<MzyA59%Ca7~%ERq0WDIsWMd5IPv++*UoJU2~C4
z<I>*j?2{AEsJAwp$n6ElZ#(dC=)urWZyOiqt^+dvb6)JQwbKaLuD8OfH?BPQH0&DG
z?&cbrjqA^ax_>Wr=g!#w&R-5Wea4_wOZ+w~9|s5hf|YHh5?*|Nbj9F5+$8*&F}d<c
z!AW4+q7lvH;d!8H(%lKARN-$)2~}3$g`Lo>Y_zh$bQIGk5SC-&GO`vezh2_9I2n`9
zD7V2Tt^w-Lq1&(#1o0(ueujiE&|WCDB=<q<z19t~mGE!ak;^kbk{a1?V9JSn4U5MX
zj(sHnwP{17vpB0Co$k*c?07-95$^QK#r}o<4Ftn%!=t^+d#z!9@BR%Nu<|{9*0<nm
pwx(f?!qMZ8`j`7R@p$tZfe7I%E=mx-7b7<0Zd-HhyXUZ?_!}Sd{=5JH

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_68534.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_68534.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9f849dd6acfd32caafc44235ae4ac3cd9f1d7b47
GIT binary patch
literal 5310
zcmdTHS!^4}b(Xu_U2=Jfhe#c+<i=?jpOTNnjuF*I?D~@H)^QM9EkScv5-Ez5cUO|F
zEK#~}Q4tLw`O8!rKuUf}#{wefrz%jOLB0a?hbsjTv2_6g@kjMXM?wqqt8bQv)+`nG
z{OABX^WMBS@0fY}-pn8Db}NGR+TD+bZ+Z~=3L~{<s{$J|fzSiQBc4d0>y?qXPUyI4
zl)O$6NFd_6oZ8aL$eRQzUXx-V@#Hr1RP*^knm6C09#th=XLwpbahE}0737(1=2^kQ
zTi~;9L+5y6(8k;DQP-_?FYWixb<TtYuCCX1hX^^=v95lNIeGE&sSDwLjjaOxnymtz
zzI6HYTNk4agL!ysNcc8ZOn4(@*v?9e1K!wp;!%~JcD#VoROfUmPQ^ZDMn>6GqhtgJ
zsMsG>bxr{}?NVF{Jpwanw?P-(bS0(O9$_z_okp|7kHE@wi_&6P*Ic9RIgK90qfoj=
zui{WhY_sCgZSff-u@ybWUO|cv^C{j%vL-R@H>_zAfQnzSj10gUzhcEYr@&@BSMww7
zZ^n^sRs0YJ=w~J#4Vr>jr&+htg=g`6WmdO3V6dQ>)r1nLSluAe-5?8F*7`gTw$|Wl
z5cZ3y?AP;r3X5lTEzK-!Gg#Q<XH-l|o4z)vcpKz4u@UU4#sC2^@IFPMJ19i;i#Vv(
z!Cn+1G-@;=jf5D@BqucMn3x(8BctIMuh9`Pk{l8=b7i0ssR*x`Cx-<Q<|H{K3ZZt*
zBBw@#B(O^wJt@S7hGmURjmsJ<$zqHb!Z+(sq7F^eAzrgo`BFExz=UR-NZkxeazvD|
zAy$kDNgiMkdn4k&6=4sNW*Lj|;hPaTI;=4m<YS{69Ze;qFxZd%f|02RN>m9j>I85$
zH8>~<ScRmKxU)_~5+DSVHG7p<b&3KKFjObOL#Z9~cWvMPc4Pl!N*s~KB2i)ga3nes
zk%v>sy^$dyDesrW=zduk9orAseqr>c!1J->P#CsMP9?)5f|wK%`^N5sfn1x6reHUZ
zynguLAs}e3twj}XF$Ct|L?F$;v1ZU_2XcEJ*zenOkyTe$=G+rk%NBOF<Z8|BQC%-D
zwtNzN7+mUEO00%XsjgF*Gews_7f@Z@nKMs4z6Y=0e?501cRL?g^Yl(LMR(wX-ua_*
zM;ET-+12(Q)!j2q7u~J7S5)`TX}aXwu@F#wq5K)u*E?-};&9CjWrt>C3$LpFJxfQv
zbR3%|H)-T_&kSdWb7W3Y1G|^VrMP<FyK3u+&klZJTXnoWO&0yZ+<@v2<)cgI)qQWO
zzP@Q|DcJGLD+^Taow<%Ys|F7&9a(<qb7J{BkNec%$!YtOK-)Ys$1KqKPPOYuao6sT
zPvqtN*$=}@6U+SPCzgjE|3uw&=8LwKt8W+Hxly=!Lp?X3?i$!6iQtckX{t=4;Le3}
zYGCgY{pqdcmzE|UJ3kAl2QH|A3&p^Wocz(1+~l0|8L+=HZGFmGXV@$|>zSQW-Q7jE
zujsEDcR!V<^YW)x@{<pps{ggWnoX9Y&%TYk2RGnckccaw=*At+QDPhJTA<TtQIN;Q
zWE4kqtzl-p20eja^#M{)yhbsM3ejvfYPxM2c?E>K6sj2=(<JkG^izUBxChxd9W*ql
zy}8bK)2gA%G*zWFsYh}>*EYL&j3cSCmS}qYsCeT9Z<^#oo;2tt;>J2&^=JUROPkX)
z__H0ANwXlm2~}YfR-p$CI%Ir;dW+-3YiJ5xukjY1N?Unzno}6V8gIh_KouG)T=fJ7
zO=+9lTH{e{dNo4|p-^BwMj9Gl*S8Iwso4Xu^3Cg;)3?@BFIeB4zO~+@kcw5|6w4y}
zsJhbxu11!Ajf#%*k#)QU>p14uyKsjfkLh(vWB?734XHn5*Jxgth(!gBiAiBBL8Ih5
zV^Ev;$^aD#%7QtTl#d+Js3a~8W@$JA9CRhoYR;r^TMmz<CIvB^8VvV>A$)8?Po)}N
zDNG^z_Wvz$O(RZg#7T{~s8^#c3pHv8s-I*B!=I}VBK&$#wCc%QJO%gx_@v8v)-GF-
z&9}z2t6Y0-Vm>{W{*pVkME=J5*t)_UD^SN&y)SUbikx?i>saAB7A$LB2h^?uYh8!c
zuEWdzm9D-5)mPy9fMcdF+xLMmKQcF>a-jkhDsZ79=bm{Z`$n#Ng==3Rf6ac#=1+WN
zFHn06++IvOo;`l|bmm0nR&{v|am*ae9?iL-7~INPR=Dm0)m`AapL&98o{;JZ<-1os
zdomY`9$)5c(c{m2uVk~oKQZ%O_PtzBF0ty|UEua)PCuo*vsYEBt;o8ItfR<s0IabA
zl?~+Ft89BC=9sZ(?X!_pHUQiPn47U?t+PG9u!Dpx&|73%imuk8J6QB}|E1Guro~rb
zW25lZ8xABAzKvn%;e|w`5pPNpJefAZ&q@ML87^N<k|KmKrI-c@xh}G4Iy5iRkE+Q$
zZ8k`3k{IEdY?M|{lXV4%$I_}vH%%L)S+{s<5L^!b6={r&BUEpS8PX8;j;UErpcsO*
z$i$sBo~^O=#!^_GIS$hXtNvTN_KlXk&?**N#arM^t^boV{m-o9bn9$s!mw}uXR-0Z
z6R=|+750ZH<miw68UD8zg3wsc!0bAXTyZaSA(MC*!@baHoGeIkI2w_JaE}q`)vG{k
z6EdW6`k>g;u<B5V6_4OK23{<1p_cXJf3R17!SG3q8H6W{jPWT!Oi6n3)y&aEDk+34
z_>~cjz^fxRC200~hSpycPD!{mE+nHuI3Xm5<l(IgoMwq7$Hw(1MCEFyU+5T7kj4|T
zBw4_kdI6{;e~0d6UA}k?Si<m0^OXv~q85MVe97CIxm5B8GnY${Q!kd>zRdYe8*=;c
zCBDRZXX6Wfg`J0f_tx(({PsfO``0$jl$*|+0~Uv8=0^5LiEWv^wCMY!^I_-m1P~o`
z<_r)y*Uawh?h@OY>s%B*8GShV*%=^mbmr8i7nvQ?v7CRQBR{o#@Jp(%Y=f(M=4`36
zYyRE2cYk#wb9VX?B=3LDiUwJYLO`}xcgveO|J3Dsp;Ipw=L=*mJ+-&|d%oKmeg6l0
zS!DBM`t^zeHv$}F;xXtnXXPfbF99#*ad_KlYz-3e*=uAxCTo^xDk;gr?J==>wYVxI
zrIZM7&ZMjdp&kSpSBaYNP%6PcM7pj@$gsypQ~Y>BcvHlI0%3xrMd->TK@eXd+aHnr
zPpG3rFh6g*+g3KcOdKt@Ab5NYWCzL~jCt{!E0Il<eHim2c-ZZ^zvt^#z&1!^vQ^gn
zfY?dUIp2K8Tt^uJSoF6)NZe19Nq|co-zuA7gqKqLjxvKG7I}jYj^96Cwp6fPp$!ae
bTq6)+|C)^xgy-1+iJYCQjvaS7-J8DyjJ{^E

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_713720.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_713720.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f2e4481876fd4a6fa9d75a25385f1761fe5402dc
GIT binary patch
literal 5831
zcmdT|T}&HS7QSPT?eRZg1CGJ`q)jPF2?5fOB_xzI2^0b;Y1*_&Q?Kz1;2&%<Gmt{Y
zT4y(_8f_(rv=T;*gtsqinyf;#4<+4|l1eLWwfo{JQDe<!C8XwI^G2II?bDt+_88+h
zrQ6+o*eiMFoO91T_nbTDp6_1&)oeB(Xuq5KWXx5D&^MS-nm$WB-bWy`fM`S$L3A$j
zCe9HuuNqgMBMHP1e%X#PH1noa4Cyy*m0^xnKSNGFL#`<<AE9XNRq{r5f^#}O(j(eT
z>loxODKabd47vUpazk-B%xb)<Ij7I9hv_OhXHX%=kn_YiO*C2_VHXA^!&KPo8Fq8N
z8AdXW`DmI6Wf<Mjlc!$ocMnQbmKgM!^Ssspt%l!Y5}pf)hi{N+ew9LPzG>n{wm)Lt
zMpKp3v<PN_oY5c@u?iN!BvU1MqsdMC3MC*IqsE#uAW|&(v9AS<&+&dLN9G7+WTccg
zDngnNN(JK$95b|IXr8zLbfiou%k!yNHW4r?yC&GHh)u8wr2&vc?0F-LM`Oh!KtC6g
zV5f<jYQ>94`4;~Sf=TH)hAw;xGgJr_d2<x^&a}n5N}*CP$lf`Ga>ya{OBIbqR6DRA
zI=r$%C6;1&R!S-B9oYfiZ5`p*syhQ&5OL;tR4i(hutSd8Nt1bzRtZ+YR$yJD%>0y3
zTBRpa{eygR<@scRPz#zs2-UJrRf6lLMp<J5efWD4^58=)iKbDbc96xN`4P_aMwLX4
zd$@q43G-tNJF3`gBv@Rw8YxM|2PMM<8y;mn<8B`<k-@Ns25DH*_(FVJtE6E)p;1QC
zdNOYf$A?*_u|_iU;Q;JWAI-TZcvjMdCwZALTw;8qV;S1a@vM(#+_EYs8M7>?4(Bsl
zdT7a#Rm&KfD&T1rr#_3n7z=5DSS>sx&4iD34`*H>aAstLa}O&-2nde3=ngWN;5{tw
z4oQ@(1D;6~ULowGq=N^JNYSDtt*ixaS%;R4GN18GGRnd%LowsS43sT8YZ-#fS_X=%
z0VnIexBc_o=1XBVz)g6(O!Jt>8}RUB;ZT!jlnL?89P4f7nemBc;F>cN`9h;^SY19G
zat9bT#02+FOuM055qiV0@a-*a?XCNuM=IGIl~HH+f=jp}aSM<sQS`)w%+|Sq*@1Zd
znyET^{DH}m$E{mz^8wLPAMHs4H6~hWqCF2SC3B;*qx0hlCOIy?a7e5;v}WnNZ|M>(
zU4K&jnfiiSv%CgsHb=ZP-jg_c-_{h<rESjZr<dMYd?#@+*|6qn6>Y6CDs8KZkBYWk
zG3r5?eWBr6L%b>3AUa!CdRHUj{*$8fWa^FcDKCAmjEU(UR#wM{62|1)UsoQ8^`y(I
zud_?ji_^){Wbaz-%VPP<u@mX?s(3&wZv@I&|8afdOaiR!PQE8P53P>eJ@c2AyJv5Q
zQ?I`#9s$vNvHrAk=f^DxI?*mV_asMF&V1goa&|c^IuFPCA5`vGxODAOd?wj1*0!$(
zQbT9%RlXVPU3b(bUi_pbNhjOIooy=tac8&a=)Qa6%l%&so&K`@i&Lq$JmN8r=<vjP
z)0MR!6N&u^omlx|^1#aTpA#z$%Uxn+N30jGa_?;K{Mq>XVtGT-u}Xby>i*7#9PQs4
zk$vxD_&!L|%ljvjn3-(jBsI=2Ez9teY{-lEfzqr%;2rWf0nY^_Ab%F}6b1ZNAebfs
zFTxfo11&tJpwXKkh(a~nSW*Yt!IF{B`9hNleEpmd2tVGY1?^o7KAMOYEI+GP7olKm
z5oqLd2dQF5r@Y=GWpqR}g*a6o0>98Uwu>B)@@&IVu(0LXCZo-pu;{lJYGNQ0C_y`-
zE*>FBE1n*+S@t7jo^{95nu2bG5U4zFi^Kx)7oQ^wh!H)ljTrbU#X7CyT?*~THLait
zTIHK7U>-3F`D5w|1^^3dU{JJ2R1p*ZoT4L`WVqK0Bmke@ze|yCzBe;eAb(VU?m+mA
z@oFU=_!{3ofARiJ`x-$j7~lw&J-iY~Am0E09%ONHXAm31_ROx_X0PMM!jnO|ZkVZS
zX*yOHX6stv#WNu;%r2`W4b4wa05H?cl+VjNdIbhQio&DOCaG!PxTK#9aTg~U1`gDQ
zw>-f~<~YlSSxLi<c_tVZHY=beV7Yfp(v1M<^DPImL|ZG1i->#xIIv&R0PgV9>_IFd
zM<#<oNj>fhN!kqfNY)VZKA?U062rQ~Bkop-^wPd58C@i82FV-E>^>OHwqO&csW2S#
zWe|qr1|0i`-Assv;>NaO9bATFaF;a09v+-i19G!<Sc)r42JOjFI970YCAUB-+XNCx
zpF=wK6!0&=kDHVsZe3UMLF7v07e9;Ff2FHR+g<nV4WhjvNvzp-&+60qvN_kR>sPh$
z?yvN&2Np+a$17`=?iAI%UbAayd~sYPtD=4L#&oH3q4rwsmA>flSX<gyHg|aT@bx#B
zE-YTSdHmME@<6J(Lo{}z$c~h;BW<+Lb<K8NpIo}Ucp19;m-|yS2Sww-6nQXZJh-ki
zL@z(E*yaMWf%wab=MtAw&bHO|JBM!{P7S?%f5<Hkx$jwi8dE>fBCCDQKkJY0iaQc*
zH<??3<-py>`$tcUM^E3gyb<kLx0FPC9$3rf+pcTxJNAl>y~)dKjzeqK&S>wtsr1(e
z77krI6z38>YqpnC#-`}8hopV}j7U1uly%-VKMJoo%dBPo;u^Ih-nP`S*pcvjbU69k
zt=-GJSB7pht=jH5Z#(aH|G~9Ivwi8v;*n(iTGdNws%*X=8*@A{YBkyo3o==weQYx<
zzZZVFmb<Wx!Ka4nG7&+vDniieh>9j7YT(JdLonVF1x-*xJy4Ahc~_?*$9GzDQ+p$e
zMG;M&#Ue-p*R_0WMbJjJrqo1jp0ykbZ8|Ba{w-@dK3fr>65<+xqthv#6Uc`E0d;=7
zAq$#<;Q~eLI-xJmtN+%jeXnQRdPQNcXgz#W!~f)){%779W$#Q8B5&RP&vIkiFJQ(o
z3KZasWzhEz*l#`rslj%D^byWnsMV9ShdqEvBhPTW+w0*NcS}CgDr1xH2~^O0aoZzQ
zAlctYv0d1b4sMDxTpqJ1g1Hdeje9gR3>)U;vMg!5!ElIa)XNoLGUtl68)KIhivA=M
z@-q0&Hp-8&eK4Hu$2Ro7&;(pH@hwf8ISk9d0kbmPWRT}Le6h{JLIx5na%{ONSP!TS
z!H-*l7@}x{LS+@vzIA(LbYQ(=NA%RXtvq^iy|g^q2e+cqiUspE^Ezdp_b0kiJNN(b
z_?`aS{i)aAdZHmqwb9o=1uFRY+4JjA0S9iD-*PRxR;QrTqK%$_PGia3p4mO?RAt-+
zb$fhy{O$?pG-{)-KCvT>CFYA)B&w4$t8Mqlt_>5imO?Ri)!{4BN9UtGu>q*jKg^2)
zTZKlzwp|X(9_@QrQoe0a+nXzQL<b(4%YIz!roz~t@|Qv;TXaxHkVf_3;9#Rk&M)=^
zP6KP^_^~$#|4vN8C0U{riZ$YXwcp1}dT%(y@yz=ZZ1y~IMm{{r2`DFlWXxoZdo&!R
zmytYICS|D3@i09ZWR9>tFb8RZxK(&;s0o7j2ATeb%zsDK8(O5IK5$-fZm6n=qXe)!
zpZ{(3Z>l$RS@v+(os+juW?2f=)-MGYgByCemqP77`7HQp@H?4(tVSwR)=Ve5KzNAs
z&KJH_*AUit`BL>_^#%fRMe~{IQ<F@lZH|S`Yn>ZdBfV$et<L4n$C!RRNFc)e9pxto
S+qdtkk=3<kskvg5Bl{O@GwVYD

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_721645.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_721645.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5e6289eb5e0f5899c0b7958d9512d734aebf6bd8
GIT binary patch
literal 5394
zcmd5ATWk~A^^QF=9?y8japELElEu)~25$m^Bul!578b&zkU(h>Dj{3TcqXwO#}j5I
z2}EOQsHhfiKWtDXf?5e9wc0?Cc2}xYR;sjB)xZA44eCZyDn(sBntqv0`qQtTJN7t}
ztar10Nxh2iJ@0ewW6rrZzvp=tK`Tr=j@Jbd`V=E}qbtDbUjVp=L?jX^G*ljmA;Q94
z<L)7nKoXI(?AWU1QFKXU(zlU@G0|O{K0=D*Epoo1Fys*_2_@@l=+j?7_td73&?0k-
z9P(CY;Jt;0SQnDmsxR&a5oTAgt8=F3*ueSYXCnhP&>s^VF?a!X!*BI(F1#ulVe^uJ
zZ*C$nU*TtjEhJsGr0$!c5X$(skat(*c}u=dcWRKEBY{;Xbl-d>#u;E|0(zapM{Ny$
zgGRj`&{5Jp7Y-MqYdc_LU_H~I*Xx`G1$Cqgx*JD_{edoN!<j~hXU1Wu0_u%=gGf9f
z=kZEIOLFDW*=tp#))})`C)1=i!M>v(xkNN#MF|u_Z_+6{7QG(xu|%1#(>5p547$YF
zFvQ-Zvv^K3u$!4}5ZeZedT^r!ETwO=WVdfI&t`qQNUhH^vqN{mntAL9^uQ)hOqH`a
zYOl@7v^ab^Pi|$s^cH=`SDC>R+FpGE-9TZ_IRzh{6?~poFcfx~<aksaGbve%OUh`)
zJPH#E-qA2)y0nzZPAKxI5*?2uM3asx(e$WfQffRpA(>=Kj*1{8n^YpL^>hPWlNBl4
zYPu7mYSPnEVl=LqZh2BOeX6D;L<y{@k*gc9l<BYV%JPw^%>=P350)I-7)x#7i6(K$
zB>EM6>J<DznAAi<1QlyYl?RxIJTjt!YIy`4F9XJ{Q8Ya`$_Y)u^SBQ4z%b0m;!atM
zW0KPNRn=s02$-q1g0s+<w0{hDP0PxdIuVUYUGZpaEULxj^xo*Gl-9abCDx@$;}czg
zb%9|?6cg#u2&|YUrz2yMl9p2YCT>K4Z4+ZMEM{N#frGto0LQFb*D8xEoe+=*e(En^
z!ws~y8}a_!V0LhJ*P^f0IPu&kRI%CVqVKhuq!NvUhM#=*-sL-&XRj677aLzM@~;~w
zm-zb66PNjheC%H0PNG2ENfr6sSgau*%?=qS!HmB?e`0o^7~E47_RJmpV4&D>v?v@k
zPCaLRx%O;(zP&)tMW3<zKVf@{Y|k%`{p$3Grx)388plfv;)Hjj`QYu*Y^Q~K{YxyL
z_ZQinFWrPUw9MA!gLkjxo3mZB=ZkE|OUmW#EV&WIm3-Lkg=~Dbrx3W`SLDA2F>!&r
zyYd(F?b#!<mkRxlcNI?Ej}*Dixv3)ehSC3m<8yu4zWl)gId}XSx8LXo|6bn`>(6%<
z*;lZ`o#60pAm48}94NATu){D+kqcDgu*e=akRc9!O+b|Aozpi@-~N7HE4=nNFxNlV
z{IKhTlTUkp8+h9H;rZh3<9{UkS7Eo1Qjfa^=uBFXv`Hl$!{4gia51%t*YALO4?!}w
zIgU}QY9wnE1qZiAA&9%Ckm@-D#l|kJKO}S_StG@ZuCYCEys)g>A&Y8VB!(fPj4R^?
zOEs<;7MILWTBTS(xu|jJfW+$7sS#|$F;^P|YK>IsNX)cIWjtEImQUh!-qdueT67rQ
z<&cGo)#e7Vc<j=;g(Rgjw&aLA<JFpNTe=q)T`01IPQy-OWK$DqJEAY(d#Ze53;o*s
zb$xmZ{o4Gk^w%#%q)zD`oq58{SN4fOI{iHq_RdVRIB#CGlHJ~DEGDHSC8|kcsG8G4
zDOnzyoY-dxLT(OyBXs3hXK3K<&>pMsbU}ZxH*B%XMFa#cb%y%iwn*jgNUbPU$urH^
z)cB;Tg|12=ham;$&6(D+rH~qzCsQI8>E7FK+kNCRDN(xtMUWPysYFa#ISM*ffmQHV
z6?U!HpfIl-0Fp^Tag4<k{0UnH^I)$@rp3g#!dn!`|Jn_u8^d%t^PB#(bRFu8JS`~^
zc_h+pk})wcWu<nLE*H%(>&O_yF_Rcja4AySaEH(BdK@M>3ME*@AK-eSQaS)N1J$LD
zjL6D#R1uXUKtBdQwb!a2r6BV8b8lwf{8{6JmisL~m);wDIJU5@yU2Afkb?`ogNx8}
z-H={$hq8xecm08DSs)KBv>jT6o@-g=1gw0s-+0TohJ_Ai50{bWtUuS0?Z{u7-8Fk5
zpD0Ydr$5x6p8R<5qrqqF8A$k0I|5KAgy1K_t3~0}!i7bl-8cngFZ-Mka$J_nzm=a}
zWOi=EN*>Zj8~tlOL^b9w7Ren;47bDxR?p?wESo>@V;-<|P{{FFJ|A6Vwt<`jc8Jsl
zy-SRDsjeCR{@&)N=u!xl$~dF!h1H9}uiEgj!YOVw4n4fbhzt^48A5btTq2oq15P?_
ze$^yi)klzYNZmC;IBw205<J{T>3O)b;|56;-}kIm>)wx(kHcE6G>@%SykuyHwHk>W
zQuM!K&7<LyZ#75`v^6`A9XWv#D8uNUq~DfVAMJ9ZGot4(kR4I|w^r>-Bik}621g}&
zVNcor$)5ga(Q#IEz6{}5w;ET0|L3!@<qq(8jyeMcMmU%FD|~MW1V>}V0O|@pxsXaH
z#i+6$gPbO*S|k=#rN{v%(rxAQ#2S1-PIAu*+C=FMGfFSE<bn4QT-~)wlE+xu^o+ne
z$$B2mNQ$hQ-fFTnsaQ%*OJT3cPRX(8)rgvykxahIk3e;R$B=YwQcB09NJ>hNYH`yy
zC4;0ERW$r21I?=uDJ^2yn@CT<g9MVib%V6>Kg1-dlPOJA@jpJQiNBop1#9M2f665g
z!B2hlK{@F&sJ_WKvm9(T2A7+*8|RlB8jXSFK%;R6@@k;z9)E{lW`g--;mE@7-d~^i
z`0Ph#7rt|8jUofI@of+h8gf^%SC*Oj{NR(u_uC$|J)HukKpQ84$<^V+zsxkxwmp&F
zAAdCdo0GugXyf==5K+SI#B5Wcb#CTq&olA}zRE)tSZ)hFxP1TePp=rKZVy6E|7uZe
zvbEU=*bZ9L3L0l#)HQB7sjba5ZZig7@b&-R+@WA?ocrhEWstAIIA_(Du+KVp%GdGf
z^Ovs;`%>^opM;mC$=Hx$9eH;$p_$&8oK`jI`h-%sM_iQBs;pS`-r9eYD<7E1sGJfX
zA<Iqqv@nOqWpOekeM|WPxWjct%|cgl69n-o^8E?%e@3lPm|e^}J8teMx%!9`L}>>S
z>T<)`;Zlo*wpP&3+AzB6MlN4PP$N1B|B_e8wPssOZh)74f!siLphN)-R%z~?;hV#&
d9>7-P1S0s)m?S|oyc~8Tf7_z)%1zD+^`HJcbou}Q

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_759146.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_759146.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..63877afd3e3a32b19d0711b807fb20f26f86f06d
GIT binary patch
literal 4755
zcmdT{T}&I<6~1H7ukEo7<~M|0NViFy1PFv|k`>8z7XtYu$tKzqf@C?K0c>m!nHfT$
zV`(C#3f_IdsH$+<m4fnQ3R3b&q)Mgx(rDX<SVXNgn@W~859N(rQmN`od+zuLhjq&K
z@1a+kJNKS*&zW=XJ@-3je#i4R1T7Q$<>=3y2z`Yog~sOxn=FCQJQ9#VgwbH`O$-v|
z+!C=4k^~Zokg2C2ntKZtkqkLrr{S4kEl(dN1@bPrlouFeIK&}=7bp>h+-0=TZ=f?G
zC$R8vZ{XX?(}x{`{Vp|VEBfiUiw5l$B-)D>Ii?7&a~+$~Z!jO8zu0}w*Kas-gPsc)
zdrqAX*h>uMU~GkF^N<B^pbFcVYay6#ZvwHD=f~`tUE`)HR4PGkUk}?zXxvg>(=@PS
z4$Yx4V?c@VCEudIEvXTj150SUKrCC9u#M1S&Jrm$M=R|$r$CGifs|9D@K>h6UQ8=1
zU*29@!QPllb7`z;t6Q^x76_}KSOhd|sfSN$6!u<oVJfEQsWhfyyG?H^N~|sCV+DBk
zx>on=`mp_iwZ#8Q4QY;TGS;$|kgr+dDY2x?HPAd-<#(}VnJnxifu@j`>X-51dMySS
z@hf8nC8?vLJW@CjFCk;Ey|iIb!-j2KmPTZM#1|9{+AsT~BcefuCBI-$lOQD;l%h(q
z=&dpsX+rgltFpla1;rfLCdJ^$XpYD!svHzVpQISYVWc>m+@elK3<54ekIxKy8HbRJ
z&)l$%g9)rGO)5S`ylHUQb|0P^oGOipQLs=k=ztVfd_ta!Ck8!<jZqBZwn0ngP^kia
zO=a5OhT0}2c}yAi2gJ5fe_+h7j!MxM|A-h>+Y~v_rizjAHkh@EksG2Q1fwH9a7&e<
zzA;gbis9DrDIc&4#DD}IA3busz4Kk*815~p+;X`Y3}N6=_Cv_%=v5`M^Rq4SmL#!e
z+ogABT$PDy@z`hbgQ@#dsftwJ+S{FJSEqhD<E~4#&pGrnFWr^%%p8+s7JiVf+yA(J
zwfVWbM?dod$m|@O^e)`I-<ld&sZY0jn6B?$9e8%>@|yc2kmFsm1Mz{x&E&x~exKf(
zan~ek)9xnyOqQ=r9)EZ_MJ`-RH?%zF(hbK~dRIHYs8~Jv<l@s{x(mqH()^F~-WRNG
zmWeY7Iyvz0X6l`V$#i4eWA94O=glj9>5iUsW6#s>=j<i@gDhW_WFJ;6^eoh->%6Hm
z>AE8;^osiV<(0`NuBYDgu`B7iD{1~Js3hror|+De`8aX;jY|JOp4x;hgMcs(JQrhz
z<Cb*8r>K5e#gS^mGchXQu@&Odpk+~=kfQ;(=f#H8kcpySz~<lM=8=X%FxuV<ARWW}
zJffAZDeynxG$K?MoiOsmD9x(7-mt>NrkGVD^;Q*!gV{o5kTT9`)UXA#ltTleTuNNF
z7Vdrwl3<KhT}Az6QlCZ@a|JWQ4HE)&myNNiry!%TCW?}PXM{$Estfe3w_qt~cmtm<
z@`)Yf%kzu!crP?sW0skvd~PI=MqWW)wtxNa&`gk9v>242PK}EOEr_>*0dc(vYz>qi
zGY$#t;N~&ten#w+PUD0I2@-EZA>|Ac@KH;@2~_~9bPf>=G9UzRnIJ1dSmLcxFzhzz
zaud7^wkzz9+z|XHryGi}(ApK20{*aa5(YWuAuLu4-CuR|S<Qon`wa_lHB$qNuC@AO
z>ALsiJ-}PX?szR*Sn0JJwty5>gCi5tgkn(9iHH~mq#pIdMo@s)fl-43C{w58gCHum
z;0}Mva7D%20NB!`DEp*gUx$fM2Au<MuTB0QUil90zK^@TxZ8)j8r*GxH8}!kpK}_A
zY7uLHm~);hx-6dnb~8N6@1X-PH)v#c&bG!|a|p=VXSq1{sa^jd<E)wu$HU2vwDT>!
zFUwRsW9l>24f8{DLkrDwz8PDVvFSg4;q=Uo#mAEE$&uv2)bOM5VtDo4-=6r*iRaGC
zGuEurt@pj~)c?`rO?$kleQTZ${rs2q_w=5ZWL4s7n%tFP?K4*rd*L-}i`x?IpYjQ1
zetK?tq4}q=4C|cb<9x!u#?~eGK4`h$k|Nf2?a#2>%+ZXyHdEdF7oMT$4L5SQ^t0yC
z1i-0c!&e(`(dH=hQ1=osBv@jEV2xSeYFc4VmLz-}EZdp}5TRLy3AIQs3pms=y_5&K
z7*(RNTrmR|xkOtT$Puu%JgfnH6mL#h2m)yO7ql^I;ZFbxGq}pwJEmYcfr2Q;YD}mI
zSVgB%0dh4~V7h=@V%2|Z*Z!$xJ6gqJs{{_t)b>9))BnsmyJ?*xMwIN^|5<G8cmh23
zQDXs_o&CW-!+i@P2#s|esOuP!0G=lVzkC1>?W(A#zJOm5eeI=_4l{)WUqQ^5k`J$=
zZIn(gE92~8Fi;>vRj3*ibcZ_(3eTekGYl28IiD6~Nii|cpaNkjDtb9wtOWc}yacC3
zgD(Q3PY6Z~7gV|vVl*K7!eVqp9o<4*g9}E-q2PuZD2K-wh2i_6G7(l41^*!yK{toF
zPSeYxe)%I<(g%<70K5U*Wl?2~el}ZGt6#|0)aw_so@)JkwxU`;`^teTYUcSlKFd}m
zLJRLd+tc~0Q@=j<<lM7MAHSl=3R*t{O8|JU$FFDE%EX1`>PL->jVrf+>7?~uVA|cY
z2jT~^Y;Ce}S$q^(jI8zo(@yK%uc{E`oCzjt7IvqmR}McX-`{W`R|Oz^W7C6y`vbqY
zuJ_Gc0A&7dR&3L?T?y!}GTo}u&%Sh5@95Od>Z<GX3orS~f6sTvcHh5cFN+)=z2D3w
zUaJ|8{rz6vjJABn&XpUjVfZzhfIk(3EsSK0=7u#CR1FTQ0Yw#WkIVUlepQSrk_;tu
zR5hc~j0VG=3m@Nz6c!ed`O!kL5|M<7uy|6w4mxoTP*TusSP6po3OT++{GZTn$lMn8
z-mW{lHY_znFR@`mPWS9kd}zaNP94ZoJ%4cS;5R&;Zd#GWkzd$}j&)`B?ERXmCtQgm
z^IdaY8wiG}>PNd5cbmh^?zcCrK+3dtn(wTq&Rm8ivIh=5>RRmD#N*8#0ulT-Y=|H{
SUk_Q4t8vZw)*ZX)$v*(r5&;+h

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_764635.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_764635.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4c8a52a3b94c39bfea4d68cdd24c9e7e88455621
GIT binary patch
literal 5651
zcmdTITWlLucE*pH@!L+EI4`$J2?SF@nn#^NOUk27mxKhC?KUDUvK-IYu@l?r%s8Q8
zET#)960uSoEm9n|QqtuEhem434?#i#?H8;4u`#07Y*(^GKem5?c7OI`wdamKwrkvG
zwU3XzlINb+J&!wQ&bilrGMV%kj8EVEWO}m>!@fs|GIT}Y?mqxn!)T1gXR*n`j8Eb+
zt_rIsH8{rLAz6>Iv@p{uMiVmLPeT~3u1)uAXwAEtYsCeVqz<DEw3fj_)*3p92hhm}
z(5c#VKSk@_)lTY4(dpmCCiN<e(U<%%T*6((JIIA`iG1PZS6&?Tlz>w{ONDO)z-sv2
z{h12w7>_Hw5a88=#;+CmamzlEs*<EtunML{Emo;pQ>__x7#B>}iZ&O49k&UXU=h@4
zCBg-ppi$s>9bozykdD_^_<>@n8bX~=PvhI_YbZt-aXYW%2(oAt%nIie_QqA<HwX<C
z8f*J$zR%A_p;0i(zBs@Z<l3)QH0D<|gEhf{a6~EKi?Dm~Cc$1MMWMKa#`|RjT`Ah;
z3Xf{Vs1lmx9crRA6_K{U?rCMswkmssqWLE_Nre+{t*}|+I}vc9Rkqn8G;M2@J;br!
ze5AoHVJ>2vMX&M>$`+SO(uBR-jHHe7(+nE`k~~~EO9J2`Bo#j^>F3yJfc1twL0Tfb
ztTz&1B+YEpOH0}UqUHD~%edMk6Ca&nA|S_k=6F^jqcL6v^b1TdFkOHx9M1-6#v_Yz
zo++t{z)8lU1X?|HA9g>FE-fvppRXp+63H<aJ+n+i($7bI-YE|kTx2A}bdaXOPlT{2
z`&g7rl6EdggF$(UNJP}{=R6TfSBMG4L!i9^5(y*}BxvWoEboDBk%eKFC6swVA{IP|
zBdMA26bQ)(*9OMgA2R-ap=Tk=&Tw;HAJa4K_04$s>1d?e8(<=Q56Aj?cqTm816U7e
zWoSAW33y;n`Dny5!>|!%_Nlo`9$+g(Ulg``&^_SpKMEYlT3%HUXP*Fv(EH||holg(
zduGgJSs7a%OLk<9ZQ|)$Mso$0H`OI3mOWS4jZ5p7Qnu8Y?7@MIX+Rv#Tb-NQlqJ(X
zn6VD-KK9kg%rmcLtgneL<xKU7K*r=0hi{p!D}m)eBDm?_dH!3oTRd~SzA0%-j;0*n
z)%PxuIa||}zKy5XpWgg=ip;hi$=Hr85qX;<c{pQxbcx8>93SGzfh4(laMPXY{1i`h
zT|Jqx^(_&51XkDlp)GkT>B!hRHebou`gi=hXaCT<J8>iWwI$=8$k-;92*rMA)17H_
z?GU@ZZ_O_(snKdjvJGsch)*u=bfy-zEW1x;9v{xwhQDr1zk2qYa}()TC;oUaeLj$R
zDUh)RKozB5p_ZwHBk4vK`%~w>qXvFx#_WA}VJ9&qZR9K|q$gwnWVA%E3?E}7zGBrw
z!k7(ya-~;6BCcTq7D8WV)lfPJjn6y|DO(3pl{$*jbh)}?kpuf^QqK&6CIb&Ot}tkg
z(i?t-3wWqTMZ171yE?7`%@5*g;{>dw6rJUnFIB5reY}EeF0WCb3T}=5?N`s^5J$Zt
zO=~OS!1nRQuB<B071kQdR0Z;@s;m(e)>L8-Z%`ydO$t<=1+72`8o#>s9s#wbEUQ4<
zq*BM@D%g3aLNCuscEmBz@Gw3us2<8!(Nvt|4=S2z9p9nAp+gE(o`q7zD4jP>3EGM^
zon=`Cg7`^A+OLZ1_^uL1C--JdP(c^NLN0|~p3C|D0DkEl1aUrmeQo}J>($D;hJAjx
z{@VPqenL<S8i5q3ZT+?4xetfPe}TCS<1G5P3XK|d>&3QGXKfG1IKF*~Y47bm)gEQr
z`?^mpb`~p4JI!C3V@eYKxn6gVf3Cl;XUgB}UVNmi<9@kdga;XTx(BvYl2&F)1kKC`
zeaxNb!2BH%9xhe6SGpP`H608~x>$s}7-JY{s`_)@*%))0WuvU5<)*!J4BHQ@BrTi`
zeA5!?hZ6(e>n;NQeG)aLkaTCk>*7k;7fCBSBWa=0@t4>Eq(|?IM)+VL7L7q64F{n?
z7kZv#i7;=%(IUFQu+U#UeUipU2j}IcCJ}|BgiFsp2|Czr^mqzA&^N}m!b8$dd3oP7
zi}J1<pQH)EA%#Qrs@$kq^tvToseQ7efIkL5?)P%v%#+sl;+Ny^yq)a$hHTB*oj2`W
z8GBa>&)T0@*5!0{E6!!-`v;THf1`8WGB>502eam5Y3f-1z@r=C^>9YhDvl%!xrPI4
zo>kA~aq;xhV4gH1l~;bb@y7Za+o!LOZH;|#^vj{ohth2$8FJ*7*^zD<%9>B6sgpUd
z{`Td!uf#UqT7L^fN4G}P2aaXPW3te*S@Teu8p@M;@vU3t`jwgGndH&UuGH~#%V4g(
z>toYZ(@x;C$c@N7HEtQk<(_D3xoPdpSUa=U$DoN@9XG9qGS)*`Yo~Z7XRTi|ubQ*g
zcJal$*(#p7Wws?A`C$I0qdVj1PR(Q;&t%QV#WQ)M?F0AP@zvwW1!(B?N79B~@ziaN
zJ#jXpX~|KxM1PWm=_b{bq2M5prCO7(-*k3ooZTsJ)_EjH8CLYm`b6*hrUbXPxVpI6
z@!R;O@8i(b(2nh+aE`L9n3v6oi&?5UIk+*jK9uUnwmu2uL`(8Kc)aQOn~BsCdsfV7
z5l7g=@UDFDD-Cq$k^Am6JmF4?$1z$J$7yw3MQh?}z%><TZS)~l4fzXJ`EkBP522%E
z)u6T8#I<6NjcY43*65&cv#Qiqql?PgidN!8g|<?6Et^Mmw8FRjw2{0?Su1xbxjreL
z<5&=b+D?Wl@2Ev_rTYjJO`ZT+g;)QrU3;i!`+7wouV@{-Q~m$so&IOu8D#H_alB&R
z{?Bq_-#1`FF$xrPH}iP#ukgJEF-Q&84b(d*bD?a<XfNA`Km*TkyvOI|7*B5{(kFMs
z;5{g}mE`_ASQTZ!MX|?`CK7I_a6#hP=MaYOt8|2YR)*p37v<y{E@^$U(Fo(x$!$S0
zl`6ak^*9S$A!AI$$Dn&;fS;C(^HI1+$~Ql_5yQoD%ELrxbUW4sBXe+RMTdT((30hD
z170v(Y?kLZ9at_kltMo-%dwVBvK|nbfFHLZH<djKt7{ZT@^*(fmTznpU&+@uh%e`D
z4dTc>BW7z{Gp(BPlsysJJefW;@WtsbM?W7;zk2STR%0W?mp}xH{rTndd8#fkw%u^u
zx#irQ2d0@2hk<FZt{h%IoTnT~=QeXaycPax7?=h^eDR(g)0&rp$;QpL)Z%Xcx0;iC
zM$BS^lJ0EZczyl#-<=oFER8`G|JS^z(p9Ylblc^y?Bd96Ys0=l?XRw(NgTUvs{8k1
zH&(~~6MrepSTByt9mR!@yNq(Sv8PdDSqkTpr)J@gk{DdtB}#!<^!g=rD9B4XIL&Z8
z^X42|JgA&yB3zV}(@{<V$xz4{Parx=Z(*{fLc&ld!cjUl%M8i?*FchB+$ucw)HsfR
zj~V}rnf`*c!If4;z1MQNWlz<LAKlYq2Rk-q*Jt+(1<ZZyvkNya{D`o-YD{G;NDX0+
zbp4?2#4X8&jkfi+Jq*Ad?PtatMj6c2H?5smJ+X%*a)*yxKe2V<E`sk);uvoFkqY5>
S{SOz^n8lejAGmCgUH&J<lg0J`

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_76684.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_76684.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..820d3e1a0d35f8cf938352d3664e49f8e4966299
GIT binary patch
literal 4828
zcmdT{T}&L;6~6Pcv$OxZ><`#p(zPA`tR0Mv9mjT&0UP5415O$zk}>IO*%@G$We3j;
z*haJJxN>DSZ3TX)yjD|zrAmf^WYU)ssZ#7GKjekYS^-U62`PRkZ#Yn?$y3jr{b57b
zrcKp{UTN;!d+xd4J@?!@-#PPz&1ObWzWCW6`fM(QzQ&zGG3Fa<-$COp;t)r~QD^Q=
zbP{@>9H2UB0`Wvl$0<zBy*ZMnW7hA>aF3&2BB#sCdl=4ei=N2?bs9N_M=@s^T;ogR
zY<W50nr_jZrsB@bw@{~<M7+7UmgNQ!w5;HzIyB>%wu@&kggP`f-{{b+xmI)g#pZKu
zky006=TY#iu_Sh$OkfOLV$k1QIASJ0o-}WvNftFNibXMv7*HuTy%`ytO(>?B{F);$
zoU|%dh3N-L(pIt-Q+6h;urqiUP@2(4zk@k;#a=S2{CaF*J#Z}g1<9cvavLD%t2-34
zLSd^Fhu(K84u#gOah2e*`jX$P6r?!u48=7|74VZ4N`+$3(X2X}dkYLgapy1;+X#5P
z1j(~umqKGiUC+vqg?7?gf?ayjc`FrC@#=FtimQm8_Z@+LH9?~rC`fmR_$XHJX$J|7
z9tcbQK}I9xxMm&{g<df{5Q=gd6BfgXUS2cgUUXatbDBYt1(6T>G?Og!^9j(CH0Bx~
z?d_8_N*IzgR+7ai$A`L$t$49DTx@Y7HcG@NC&D(7W*Urgq3*C8>C=q3$wdb=CL+Y8
z5Ez0Dgtt+W!=fCD=Lh1NQRwN(S)gmgH42+!#?rh=^l&&X<@CTf$p=dX%9ii0)Ls+B
zerYfq;cNTCk^ZpUCnRdZy?jEhmBdJ`%nuCKLa&w|=;k>tn&=I|Mr9!p>gUA-A3rpB
zBLu?*VMG8QymkEeiDNLJIX5Qdw8h<E3BK)86`X>K)}6@ZzH7T<ONX=0fcnleyK`(H
zHIQz~+Fw)8uQJH)9al28-M{aC5WOFrBj)O}dmA&hMzv+h<{t0M*j`gx)*0mS-92&V
zM7k+`eX8m!cipIQ*;VyP-NeazCnw*VVzWDr{Bh^prMZ2X9j7v`Q=<&vy8Y?COvT<Q
zU#6mV)VSoTOz+RQc8xOFfZkN^cyw}K#uuDpp4#6UrB+$w+m=3Y=ckiB8SfjT=4TGq
z*tOKP@!?5xrt-j?Z+`EmKYHqD8l^$e=1a2~YhcOlNxz-3zy5+EY<rfW)07fk7)aY|
zs}wRh*UiXe8DmrIxO@ECo$5(?>iAsCbi-Hdk6#3l=ja+Z2#F3{VWQO-k(Y<WM5L6w
zFtg*kv{nbw+os#*yGTJX5Ns||0OX}J^9r%D^wGZ`&c@h^II_UPKPMC-R)|I=;DvFH
z(&vz^NY^Yw9$m0{lKj{VcD!WtV^flnEd}s$Q7dIqsFb;f0$c0_y^S|W%j|HLF3@L^
zmLb08O01&L+IXkTMPfH_h9vW9ZH_5w8%Ir}<{pwW-eQxi>@6TFET&u_O+ukz*OdkN
z#+zdc7%v$&6~~D!=9eGen9nFi#V~80$<ro*6#9J>v~*~6WQYroY>Orafg%D@pD+~X
z0`cfD9}p6O^Y4DJf_*woY6eceG01BS#}7v%{7L|%D+oT{2qw}(!5_67p0!g@{f4}Y
zQbY-5mpPpjsX%zdekuf%9un*#J9J_Uk{Xla88DNJ4hJcXZa;UaNh8i^M6-l%en3^l
zUGUb}`gnMtn+u;F*-_-1L-lbX0vvc68o9v}pek*L>K`gfyFO`|xNz^n6ft#d&Yn5g
zko7las+z>tVOWn5BEIlJY7<)rt(q|^g|OSigP@?%x??Cz+6JjF3{EmYm;f#}0Bg!O
z!~+<w7Hc{Z{B=1rC|u*kkkAvV(}_@HazP_#Df!rm4>h7q#Mf1K#D)nP-3t*$tivNm
zp_1?iQzZ4q#+)-uMHh&TFkXWdzlG{s6)jmjix&Tv7XPGaF>p8&IJ_8mGZT1o-uGpo
zVS(;iXzI#BZE0AtxW-PUPW`ezeFT&jX#ax6k7f0#`kT#alX?|^#u`!$xz01QW9(q+
z;P}<_&h&f0o5K&3`^tRF=k1@hKQ*_iXP>*bExLmlcW`QF*8PUswq$pz=bt&ei;g`R
z$DYYZ)^R|6`?;k_ZGKLB#xG^)?Mtj{iM21W7HBN8RT;J_?aHz{(w7&jYcka}Q{im&
z;kmtks`<3$5s|Gs^Qh%X`{VY7pS+)KzO>}5oZLU}|GR}TFspWCb*QcSp+>+1#Zt@;
z``{WuYE2}8?veyYB}tA>QqZSgeRUNIK5Mdvkc*II$<#2*%-|poC21%@ER*eFswhD#
zLz5gv%TqQGRPoa*m-<6C^q-&^Wn0clpe%#J=({r(EGJMDC0WH7!{KOCDTDxp<&5<(
zR$^6|5B>*v?Uj~oX%&mD;vl$i=Ksl={&&_{bnC3iQlk7nyBk}cfDP|aVS(7~9nrtR
z_ZCHPHC9xRuHb+q?!#3OD$OGEk{pVJB|dbdv{R=ua&#T8e5v@TShH!?u^=m+#4;mf
z?vSa<ngOb#b$TYxB{X9Xr1E-ygck)#=SR&Di3<rnXwuBX5HPw!QgnpZY()~)6LN>d
zUmfBT5k3^>6TNbuW*rtlQ_srbhXH1Ghxi1Ce;!PFG{woep1SEg4)*ZUP+XQI6IfSd
z>>OX)^<5X&6F&fz4tS&q*sqEpqpa|$t;?QDwSC#QO})76_Nr~mF0b0UZbdF1&YhQ8
z&v<OIVPV&?KcD;j!e<v2-u-ahK)V?A9Z<2m$F8KVEVC8k?X%v8)zj7U!!T%PAaAxJ
zixX4#GFzFhp5-47Ob<M2fk6wSo?Z7KgMBob_D%YyM&^$`r5jeQ$l+4YFINX9F5kQS
z+bin%(RLu~f6t0dSeror+oNyGqqaVGdbixv)^Oe`wf(uR;)m_sx_R&aVlRuVZnZ-X
zEkUb(>GEMdm$Mv-!yn`j{6uMNp(Wz8*Qi)j)=Uv0A<6vpK{1~NT;dawAnNx~KYz`V
zyD*_%A<j*sTw0P(bp`}(D9)c2KLR)$1f*X>wMr2L@insk1=;?J{L6&#_V%0GSION(
z{i+$kA5B-PYt@qL?cM*N>wd9!hG-_9_#gYf!J}&wBCWYuZG?w#q`edVd;V1f&8eY>
m%Cw?49~qulA6wV36mmVn_6-{&2=|LF3OTCbukEHqH}{`Ix%({u

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_804525.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_804525.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..97d7696c4e832a62d0ff64b1e3e00f5af55b7e06
GIT binary patch
literal 5651
zcmdT|TWlN06`kc{xqR%B6h%^$B}WPpCu}4u@-t52yevzyV@YxB*tMdXpt(zm6d&^L
zO0twCum%z&LIa3G1Bh-5NI^d$)dsBOr%F*EN`D%pKiV>_g{=b+h(D@7C3aDuK!M&_
zaw*!OqNb0J4!HBUckZ1#cV^C=;qPhMh9EI-|8n@c8=<doLr-+Ma(A3SXb!Q6C6Z{c
zR1$-P);6S!gC+vg3`ui}93%<E5eY_Du~o80&XjO%we=cn+J<i4hE8rnw`@bFYSW_*
z*7~ODdfALYE9+uy97@#dc5RiceH*%kv$GU@4vwtdBLGTRx;78SXWldqIx1duzKI5D
z1LEk4P0S<_bZ=lo`h$c@4UCHMOgfxYZRZA#z4%h-%!$F{s--K`H_&zblxlhD)WETq
zL;WgMuJo&p@yw-=AclD{6lYZ%ZgFWA>XGVou!4Rge0R@5K8HkD>rzS>^x9U*64%T8
ztZRp!hDuNO4n2*Po^_I2a!i>K%6g<aiPmcMlBY`Ev}KE4V+qM|y=?0g5VKyXen$!V
zJ_(=Xl{_#qNRNP~tY7j;cCFSRA;~2fu_c%b{Y-j28>kwE)UDYnrGVsTi5sTt*t?Lj
zjaB`r60JIy8YM=zD!XgPzE0LK1!uP+(Nra&o#|@bU^!^VGm>^mjWsQ*EmIz4qzfdQ
zswJ^LJbt!OYJ@$E-ZHQ#YQQ^QGGh-(K1{{*GL@|Ot+~q5T7Dy>X3f|B2lO`FuW<@?
zB5SVl?`~Kri#E1bqHuY?yr$D9S#{2qZJ3jNsLCqG{l3F3$sj$XY1j>`djEWD*mZ-{
zeN3Q96twj7c!O@>v$KI~L4#^ag@qB-oDqjPJ_aN$1qmLbZqT9{L^$Z9d?v<+Q~3Cj
zVLqIWajGeq3A3s-I+jd^lJOBvHBW#7C<HOXbHNtX5>K<-6;4pe2`(NR7FA<rOjI3$
z$j4a@G+hZ@y00au_A+lm42`Q+y}?%K84*PEPSDtrfCkIsBguoe5sw#>x8MwKZyqCy
zY95WVAg&ccsQ~i@?s5s4R0~_KkeO&y0NtgMRVnPB5Oh>Yt;WL4!1z&-SFK`ZgiFI*
z1l1ZzhEt=VWM)FOm8!!qX_$Kmt5Ypp>QZQ&i-1;*Ahdu@Ejy&Y4|Pmr_z__=9N{{K
z!;z7&IGjnhhhtn?>=5`!hsdQyJD}A8+Bueur(+@Tu9!)OMmRprCHIa_hJdXTBN=e~
zQ%@c^xbGlvRM(bNsXN~ZMq!T$pTGu@(LDyy&Y8aHzI<!J(Ig+g?O?WT6<yxEW!5R5
zSZ6%BVTIW(_Y`U0&+Fy`*8&Tj3$a3AuR`yYyVvRZ_xQQV*~ta>LT|y}uF&mrchTw1
z2NupNfi}h2F88j}o?J|!n}NZ2^X3JI($J<bZHwb84yB_@VY=j=+pfAf%d91DSr}dp
zf8lycK5+*qj#)?k!lI+#Iw+sG?e@$y%{JxZi;c_SrQHShQ}RhHMa@z$){qkDTt2cA
zFSvT4YlWOx?tDM31P(4wtsW`3`d~J$K>n2CdR#tHWc)uR@(1!3g=txMMq&0YA6j|j
zx5Ub0A3nc&LD}E0&;xS!ZN@bdn~vq8`SIDzV(&+%S4_+2mA0d+<f{1j>D7r(ol4ul
z+WEmRnAgES;HeRXX<djezM<@S`qwY6h$}tHqg@K!^%=Q#dPwOVTDy4Z4=lHKkyCo2
z3LS+3Oyt|WS9{+%lRGp$ls~-K@KNjX+2zNS;L|JTR=YlLUG4ceqy$g>$<%ij))DbO
zocVFq0GUeioH)j(Blwi)sSYYy+<g}SVGc<sp>wLrA>d`rSyCdl<yx|oWRg3?a+E<R
zQ6ol5W{H%js1fwkMBGG;cyxo%F)U3;rmRV{>xQugQNJ6aT6aB()FXN&I$6JmH1#cM
zn`EvUvHJE>HVI~D)yLYQCneeRo>61gE_(D?Np>xIAqi#+tKrq@TP0h$scgeH>6U|^
zzgxaGe@ou9gM4lNPV(l8eHMw5tdb3)nh|1E*`oxKOlNSkS~93+R-7E=RFdV!;}LG-
z1@M9v!+5+4cpM;u<aa}V&<;UqI1Eb65Sk*xsu^HYoa7H-1&1M1jj4EAB}>q$I@8=0
zF*KT);CO)Q&_2}^VdLW(HmYPPC<Pr=2dffdN=J-%NhQwIGDtPWAo2;=;%eOIpTrhe
zD_G3K4F|QsCpa|_UbolH9GyOTwM%|czP#SpGT(NsO)>f9lQ~QA?D@5`p?4phd1CsB
z+~s_0{(LU8c<$!V($MOj-?e|*{zuy@YuvDW><;73J^Wtumak3mwJn}5_&N&AlYpVl
zy4=3^#%}=#``Z^|1^=Of^RV1obkOgP&%81HM!qv2D>(PuAaB~2?8`kXKP)`ny=L!`
zyY86kb7vJ(<2vQc`SKnpW|(Ovcey|X@`vZ2yY}2-YhhR0I>pS;({wIepc?Xf=G(8e
zFA{~uAFNaM8QZii*ZE^QC(KRFPA#<lB)bs#An|@;+5L;ux~F;F<;OpFVBOma&A)o>
zW^%IuIh^uIejhj{0$(NJD6gT{Fy!zyB(m@V%o40IYhX=TBeYFb_bEWJ2a{xkQ)Y+~
zVueu)x8Qz9UN56&)?B5r7K*{it<qKl(KKykbj*@f+G^c>4c|+fWeasQti`jl=#~>G
zjsT@C31?-pm5Tn_lPK2mEKsYg`fquyg4MMw+tDftTg6&oO>O^^HT}=5vuoBlvP6~N
z{?GQtjw?XpIZ6~DGt(dc3!Jw&f~~P319b!MTtLb(Hq0NyRlCRuVki<8xKL+xW1j}z
z@q2)6)#Uvf=mE-sAjLn8HCf=j0asg5HAA+4pK8YKv}%dM14L_2aePM5U{f_ml9@CY
zwBkP*B4PN`AwI>abOl>OY&@kp;VM7Ir6XJ@$)#iBaMc^Z8c&ao;Xf&asymZ~=Y+AO
zC<yo&Q9<q!Y%|&{EBg5h(B&2Qgn13SHz`!-lTQ}w{c>N?7mx>v9<O|===RDd?>Ug$
zH%HIXMXElRSa^Qz;RC-p{>jT9zr6O!xqD`lo0LyL7sfO5`t<8XsxH@e!+W!Nsd;4_
zm<%a*1Jmxpz+a^N`Q{tk&D2tAwHugrQa*OC9+{bU;(6af)8f?1{x3|=Z#t0EE%y|g
zTjnoZyYMr(eZJEN2>!2G@qn%em4NPgZCds6$vZCZj+5G1owq^myF=IgdvkX@IQMVa
zOCg6x?$=^TkmwIOwSC4P#hcApx&-V^!W(xC9$G4;*LaMXa7maPg=ZFzLyl@p#6@`c
zWzvGkT^Z%eSA?@%TFCIK5q7J#DYZ?Z+Dp4A6w4&pC8UjA+CtQ`sSG=o<euXrpcA$Y
z68-_%rja0suaM)<i2f2aeTjB$lE^^4-FUTe)6hcn6R@=&e&mCu_nS7Y<>rxRK5=~P
zC^v2Bq1O52wdAH<<J!>SBfm<1xYayEyhhx5^`i3X#Y&G9ks)p+uPDhY-)KU2jmY3A
z4fb_6;U}EAu{mj0+C)%Yd=1|+wCZObtymlUQK@8;YbpL#YEpq8JEhS!5$Z9VGW-n}
kXAEDLio00P-4_T%(BDuAg7ADjWJJ#90<-(7U31Sr0p>Eg7ytkO

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_823958.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_823958.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..97c0cd309ddd31bb9ea80bc0004e2e1158bdbfc7
GIT binary patch
literal 5166
zcmdT{TWlN06`dvb#rK<fn3SVLwoIk6Y&l8eRE?Y1vSYp6Hjl!JTY}~;DM}P6@2;d+
zSf+H4B2-&I6k0&*^uu&pz;a|D%AaclsK1I7{n1(hOl)0%K>ShvF_DV`{py|NL$pFi
zO&=c}U}xsuJ9FpGojYgl{>f%DBPb!)2NUOA2z`c$TCr9;Tm1w=D~LlJkwoK_mKY~=
z+AwV#Ckez8le(VT)Jn@4cyh9)r9s3QAHydf!>5|_V=PC%ORiNlk24&@qe*AOLe(zE
zK8A1LO<;?OGd)IbZqAQcIm^4`xVi2T>$_;&VnDp5Zj1FI5wbnN>yK&Hx%Bz4C`AM*
zoZvJwruY<x`^?KDXO0htVMwKOV)V?3!I3B&M7?0Q8sXde*nkf~f}^OENuYNYj##V8
zGp=1m8tNn6vP*U@P^eKixl=QO!<U_F)ioDDobkwR*^1|7yb@Cz52LKIV+~sj<pjzT
zKZG{plYI^LG}rEUM7v-1%hoAaFViA>Wxu{+Yl99}U*M5SMsh12C%16K4P(uQOq<*$
z8>h|zzfC5w#s%<^+=A;&JC-egk28B3bT<iQxn14^-mUH{vj-@+2tP4!C}wEGYckjq
zvIlc9zshAXSGPUTpud^zgdEUqZ{MMJr$&2i2RF!?zcN8M36s9Qf5&WdZT&A<W~oUs
z9SxQ>xva85?$9j@%3sH}s;3BufS(&lbP<K9F#(6q1010tgGNqA#3_wROB1{hA_NoW
zGMYh3YUUXs9Ty_g_=eCCA(D#o8dYh?WIDoW)I7`qo+zaSKD1Y}B~ml9_;QKi8A;I0
z^L!#cA?bZ44FX^a*d74~o@Ny#A;Izb@I#MKhc$CmHXojA=yUZ^Sljj-OdWni)~_)l
ze<7UYQ}~`oBXI8%3%q9J64L@i0upF!0X380!mth8oY&}dEG7bJ64LV(n9zvHDmSIk
z*iGS-#>SEnyv4UPBTUoSxkwUbV+;}aND_Cb`7mhGD1Q1p4^$dc;$B$qiLWmIIM+9y
z7N*3RNR;oJh(xC%(nLDd8;SENsZSK5eG)%C(+5<au9-`u;$iThlum`Gcp=3n56)Z+
zgSf_wrop+-_a8a>?DHVeoZGW1!-a!j69x?Nrw|HR^sp7#9805%qe|zdHIN;=XSFv_
zC7U~cPPKLZ_T_7*uby6wtOqu`UQ}%_W>1!!K80C!WKZ9NA&2vEW&W<MJ4X~<?q7a?
z<?QlV<wBu*)7PWAdUABh)uME(uFf1?^aPYS)w3_h-m^QG;*0V8bYVjEA6$Rq_Tf+M
zgE?c#+oBAp-tN`o>pki>22{_tZ_}#hWR5MmeTr3ecjcISZtu#0<pav|g&(X&Hr<DE
zOv%~uKA}9LFsk#3!V9Xicb#6BZhdck{v*fj9`(?O>Kw^Y_nht(W|>jUh1b>Ao?>v{
zuOqA8LR<|VT;G4wd+Wl@mXG>wA6NTNslits8VT1Bk)z5qa`|CdXIEkFgUGsfHGcKS
zHv?+-pz0j_g#JXj^ZFZ~%>U7`F&<N2iK)&Qtiqa?*hMzqqCC62x9IX0{T=ULD0C_F
zs=s^nx%IAF#CrGjV>e$_pZ<>Of9da(!E~JXyc5|EY{8Kr%~Zcj8eO?Zni1k$qXk}?
z6;e?g#kJyr4!&1gV{oxokc=j4l7^NerVc>hyFgmSga#qvw%;K<zsbvR4!;3ZhL(xP
zN|_8Rlg*?uCDSq+Ghz!w!w`Ch04?|m?kF(333q#zgwaVa&C(p1t-qy^PGrmtqnqI=
zE1PP_EmJW=#v(at+GUIWmLQpsNx)qrc%(5Gs1Doq*<<AOEC6=<)$^Onx95|)%x^B=
zZ9ZA^7n}|wv$9z>-JsU0mJ&!NUqvB$Ou)}%<;loG?*V>1LWXS^4Vg4D1;DDAW>eyY
zS)K==rNoKI3^bf{5gNJzQ<@{izXh*AdY%^m6vO=*8RZglIu2=c1@S{x;SgT#Fs|xv
zh0qVAMxBpH(Fq}dML}G3;0gzfZj468;XM)YQ8xmu&<hOBR7XGIC7?0%i7p-X%4Wp6
z-h2Df+luQB(_Zuj?|Qp2>=2vYo}8)Z>sSddhcAs~2Xo&n`U5M;<>aL^*`d6#Xt6IH
zT|BDz3e2i!qqX;rrFVnu-LUi)Ev}`3#R28Wm7|xB-m!FTkX;*=uKS+0yPlBh39UZ0
z={cAkDcW7xQ}?XyrQyY4#i*RywDznHZdm%WC+?Hp{A()NUSwVQ=aeHw)|;P%{#~|J
zWm^^3Cc8&DdpFpt273YYf`^K%eaW_H%SSdry8lY=<z6toy{E`pmduOh{NbP3^5V+E
z@<O5W7nwrz+T_*Ab=PmEi>xExuDn`wwiJDxe{-2Ay6i<(M|Mc)1J^|1s~7x4=;$&5
zHT-@M89<8+0XNLRkr^Y<WJBhHqhm*b`vbQqMo4vjGmPM<8}wQg)iP9r#wLgW8D^t4
z9H2XjuC0n<8M;ARvz*fKwX`vkt+tqsYj}4|&2j=I5TGD4S;vyvScGanB{It~1Hf*u
z>c8c+ue5Aet5|FmXM!^||4+{JKeNuFTW8G>4SxGSi;Z1Rz=roIvw*wyvBY2Dz9kTZ
zhVU$KAK=IZ#GK_KfW9wag68<SM3mPo5-&>OXhh^84Q?R%b<|Eg1e|MRA9;XwaGnXV
z8U;ywbOO@Y2!MG?(kQ5o^y>*fm(rLRWc)h4zzb<n2T_fRCetZCWYW=Cv(+Isj9&u>
zB;d1rD$3(5JT6T%p!qh!>$nb?vpAcSL=nI4b?C0(wq4&^U9<2y48fmxr2^h8a{IGG
zkSk_KOa8X(nUcqs9Vxkd*`bG4$k<kF%eE2*(895eC!hIv@b|;N8{YWt8xJYcMQ2aL
z5W8pT&BZrMtUEt?!}nqEdhq5P2<>$CBnU0erKcC4F0n02@CN_k^!4f6CqZbTv&SEL
z5oOOM6n`PGx^VNzr{uA+6*&OWOTj0uoV|SZS8rxd<wgO-|1~Ri=-R0SbbIw}d9y?J
zoxWW+wYxfBYj*U$&HeA~-MVw{U$U1)R!??Je@a3&VHnO!_!d-}qml?5Ov1n9Ed1DL
zY^^6)u-rJAkTg>?of0Mftr?-38N9})#I&FpAt3d*(}O^>RH7yvPbazSNMEZGGVH)~
znww4XFA6^boe(BS`~y^FBS8?KA?u%!?Jp<*`MiOBul-Vc+3*x`oB*<G|Fwau17$`h
zS@dMrwZPRt*`$+hw72t0@^Z55(MfN0@E1NzZW)omT2(Vbv=a`+cO`H+P)5)#`uE_B
zp=^YHDX_OpK?`f`=_oU}$0Bdr%E0nK*;JwS^;{ddI<keSt&;>IY+taG1mXGooDn&K
MoA!=N7JZ-p1W4msNdN!<

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_830218.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_830218.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3be567f6f2ef84a1c692b64b74cf4915e4897c2a
GIT binary patch
literal 5264
zcmdT{Yit|G5#A&3j>q?#dYF`>Scy!fk}Nq%<5W$W*m7c7vfJiW%WespcYH_`Dc_x>
zSU9G1kRnuDKonX)=M<>vwt(f>K$Kr~g8=of!a;wOX9X~EbpZnLkNO`IxhT+IojpE8
zE40=0@uLge?#|5a?CkFBH*<fqT1^NF?Rr1{OD95~VWM6vwa(@+fzT>q5lbY|WVIzG
z360jx=qE`6am19Sr#`jXvO12Os%vQyvHAz_$p`SM*8C{L((jO0YMLhvtbs#Qj;4ib
zU6y$OU&k5279(qXfZWuYAGNUNcgRUo<3ud)ph>e1aps0Cma|0AdKa&MOts9XPlp6C
z%!{D}tC}#yrC8iIyf}XR;L#8asdf%c96vNV9)XK!6nw0D_%=V*;Y$$VDyn4)=<S6i
zuGHii=ME!vjgc<NDLED?)U2D_t{K7QOO7kGH5WmgaZ4`Ag6CyCqM<$>Mp-2L6>Kq-
zLnu#tAKHvp@;2GiTD$!|?LNsTS*BsVOq=A9eA<fbO*$BDf%_^6N$q%?)W#B5^>rIE
z9a4v+pFRcr4vEAX7vYSgHe6>qv1}2}IJ2uscMDgRI;CB3y0v{}b^!$s;YT_aMRgr`
zO#?m&$&I;~U*j^EtJ&^v(%;H<Lh@_2cW%?WU8AkOgR5lyyfOi}38S{YZ`*8Bef=+4
zX0A&zT}_s?c&w66>e4I=NMFUa+DQ@M0YBA~=qw6S$9U{Mcd>^Cbt*X%7N%7yEyg)M
zNbp9?HK;l<shVc_bc_$r;1@!N`EV-6sZ_Nglj$(4QVTE#c!HSbx!`Wqnn=yg;m0L}
zW<_2#EpUlgT-5r8GzfsnV|#e)c&bGZ`2@>p!}r}s4XLJ@Y#}t?)Mp!`u(qu^m>RlI
zHmn*1?o24jrSLnCgyG#M7CBYVCT4i>1jN(W0%|tFhF}}GIjz#^XjA~w$fp;oFrgAt
zHEv3!@iB!`DickH@fP1y^)O9k=EF&tjWLAh!b#kr7DAv&rMQ{X98hUY3A<svM;>1O
zacXcO%})!n;RrVv4@aiMVmzJd568HaI4JOuL6Mu89RzAn)66DPu@Ib~m`;VJIX=ZD
z2WHQPKwM`=(r~!X?B6#$^bAN;$JVUsaDD)6!hj+C7+fKX?zJPUeR*POLhjzM__L$8
zEw(1AY<1;NDc0`aym;xz#UpFsb^k`sbBgu3?BTM*D;rkq*(0}M$WT5eFWj>B=7^Hh
z_4Dtpo>(~{pDFZic>5G*Uyd$2+vHxw*`1?HZofRQxF5?gw{4E)*itM%Q-~|Rf%Vs~
z4}EGI&FRaYHhDzx^sXIT?^C`uqPV|#omSk3b4<zQl`V>^Cug|r@~rM%*(*O&cw;TR
z;o6rolpSsF5%QC=L2*1%cvf-ruhZ+|N8edr_|Sg6PuVxFIL33-ZHH^suwsx+h1Zn!
zzEa?^Uxn8^g_sf;SbzMQ=c6;%+CCh-eoz^HNeR4sPfs|<h#Xa+k<$muI(iE8?}yht
zYq5(zyyjPWM-|8D4f=+7^R?G+EPP@wPDYiNqlzO6t1zZzW{JtS$xp59E;)TAU)OtQ
z3O(|I;_F>|dcEf(V!ikB^VeQcp7@sHd*Sbt&Uldcyc^l}Zo-uy)!2ATDqVd?svi7Y
zrFl-A<5Lmr#r5Kb4t`ggd3e~XNJ3L}NmI)b(|f`3ogl4YLX!}&TX6`_ZxI<z;TS+=
zXo+~B)R18$vXxY#BwAvkdTfEP=b`qwT5EuKwxvNghTbN?4*ZC>6`0+EtF5ce5;4AM
zrB$LNF^y;p2}#D(G`bZcGm^26{Sp<`Wz3?zu3a)~(FjR|L;`Z_Vb9IkL~YpCsXsv8
z$Rl9451-#!zBQlRVSa1*PV>q7dBN=%Bt|kx#;eqonxzDi$X8I1KE~rfTMar{=-tKP
zC#c&3;-FC_Qvl7XaV{mCnd3NsYD$QQXQ5%mv(V60pi}KB?oEgz=>?7lSPc!UWQ0x3
zYe=Tj)tC{q@cZy`L%3>08-5r_l{y_3BXQo3MFCuO;R-v9W{gV4AR-C)s+*yj?+1oz
zY~UyV0?-&dg&_?%D<;G^-+k-cTe9<}p|j)(-178d;376WeK}*v+qD{637tEZ9nF2c
z<nym4SCZ$BXUFpTlG(O=VCjJDEg06^#rFQ2=Kl5IZwEdcxc<V;;n5p={uKNqSp43J
z;>puRHdcHiese5dBojq*qGWb1k1UPI`!5_gf8eIMr%3h`%{_PA9k<*;#T{JRv*8}d
zj+boC>`S*TuH~akM`gWyYQxgEHd-_fXAj*WJ^5D^va`fE^H0nBON=K!1^ru0yTY`~
z&JAXleBxH1UkUUBtOoX#7~8US$(j#ufb{VT{pb5(Yn^>1#=LA=GUbPUV$BPyiz|zT
z?w@4}kxNq-r`Dano+&Z*e5d?M$<bEwcK^+3r09wVS?t*{eh`i>0$-!xAf(|}9BTN%
zAu@nR83JCQjwLgCpvk7(2z$@A0`Ci6S(FeP{8lK$Qdj9KHQdZlO&VJu2IR2K+OPv}
zE1I?%PG;yPZLP9a-B;3P5UusaG~~p)Gt@07PyzwY8m1apQy+^^{kKPASi=ago2>e8
zo!Ub!+tDfpTg4jTPEG%lJN?hBGi%maGDOq4{h#^9jyGV%dz2W!W!tgDU*Wwa5V!{a
z6maii&jm!CW5a;X&tigRx%otdQ_UhLh@nVW;2_a%B8D|oPuv3>Y-aDji?(r|3^FPO
zzX_2zB+6j``;@3sQ0*Vqeks_LYKX!=g+?!Od|J>zR;41zbczcaHMCZ(4G0e5XkmvG
ze~wE<IGpFl#CQ|hZ$$tN_aQeI=8~cy;OO6g_A0L1w5>HX^RK}W{0SGT;LaeIFFOX=
zXm+CP>&PB2yS>@*veTO#yJvx%aMikEEn@&JJYRhD$&W{WfAn`pi{F0z9z{Co>=77Z
zb1$D<I$361`H8FE4+571*XBWJqqB!WXm%_=vGhclX_Et2xesP8&s;wYLNlE`c+Z0<
zTP`8{3jVdlYx_SXpRZVu9T2@7c;v!~^Cy0BGW$|)0zmv<vtpaB?MgtmN86SsJ9fw6
z-EmVptMj&JC+=8X|K8p$+xPw@dl_VLXOC&2BxvQ2!hP}IfJ(Jj6NP~!{H@NxuanBu
zd%PLT^-~E^HAd1YLFC??<!hP4t6WM*^Qs;kQu8~_2~=~{YeKPflD&+ywW=<|jLf9j
zxg_@-{{zqoZi0kAKvmHb1o0WN{25vQg8cBupkv<cJl9##?I8{lK=wR-Y2@Na#h{T4
zdbH<~|DwNQ)JPZF-F+c>K3Q>Vq^CCc3oj-&^+;!_sTn6a3A^mQ;6LxLAn2BSyKqKP
z(L=xN-(8`gg|&8dRSdYtAWz5Y$jV5?Sfw88yEJ}rd=pcfhY3VjzhI^a!u|OvJ+cQj
LY+dKf+CKjYiAZtv

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_837397.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_837397.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bdec3fa87e0bdeb8d4a51f193fb6fd384a6298ad
GIT binary patch
literal 5532
zcmdT{U2Gf25#A$@yyO3`_-9F`lplwP995DF+liaRmK-^@tkiI9Ben#B=A9%;{E_cY
zlBF&SI!zH0H6RIn5Y?nGQxqs23y9GtrzlW8_UEByWhBJa1qj3_sy8}PU;5I{9z~jB
zDL75qhc0=0Gdr{2&hF05?Eb-I(jzE8T>p6Dj~;}+AWXHGc8IM`3ZWImA&!co%au2E
znNoOFOnsTA5Km1iIMuF|H>cw1N#pJ|!g1<7+Ue%)V_Hu09(`vA=rW^2<j0vgEsrLx
zP4JmL+F4%5>EO}tAvZK{A2V{s_cWLFwG}YEhb|jbh&R-1GR{*0%O){pSY}QPz14pv
zI4rX}#IS6vPy=V*8aO!=t~Z&5E^2tTI-y=c5-fG4OscBXlQ&1**^wu$*ox@|4MItq
z1a+lw6sEE14#9&mfR?CH4m9l8UWco#Nb76pXS%a9-U0}c4(!166tpCr*oGZSTT2}V
zvAUsPgj<Lnc5>93s%k^hRoAPTi%{5A9eI~-6Su({PQ3sayL!~m-Gt56aR<=oBe33$
z-F4$PpSig@zA{S>_Fxm4Id(3<S|`2Og#iVdiPVRZK3I2_tUI=2w=!QH;gr7ncI|`~
zTk5R&0I*td>r<_<?6Rf}w_z=@CfSa?;C|?bDh`dQykwo*2~S!oykhNsOkrPx9#gds
zw>9(tl%&7TqGr45$NM?DZa+J)3hz_q?P(aNwhp*ekvAKyvu-pq4Bt?2C+@)e*EH32
zqtMNt(&*-2Y4GHm<20H_0qw9r95tYl=~zgdk~Ilwf)_T)XE9zy3s3?>bXZv>MP>c8
zkQf(2v0#LgH9{yp&db_R<xNKuAx>suq3e;@Obm!fTp=`~lo0s9GqO6uiL!Q%kBm=9
zvN|y%$<zs%IxkZfWokgyi;@uG_~2adTe5M72Au}3XP2y3HqIul21O|(NW>yN;rKWQ
zv_QUFfhHC4YFRxEa`tL4F*YXhlFW$wHA2gp2zNagm$hX6@Mge9=zU$*Nr@>w4x}hE
z<HEF}s~QIdMG*+KL;#6}S3@E%YdA$kOYno-4j!j0ovfJ)PD_H!@Ug4GSw0NQOnC7b
zu*?7S@{f`3xr8t!PKUyL_e3Z>6_O?r@q?jpJ}z~OLbzMvW7FNhbpt-nagq3V5SCI(
z#Di135a**WP0t5GTx|>|V3m*b9qv1N7$mawNw12!&<l3y;1PcXj*vpz&m)6r@nGg)
zmfFz!QvF4Xed%0gE_LdW!;`gTk7wsTcN|DFMXUS6&Rc=iK<;>MZo}7Iuy&_4MVl*Y
zTlS{4CA%+sp<wS!GY_4vmBHn~Y=7>+>e;*6d!Yx;*VDRfEoyPEoL)Yiy_O4XIJ?q1
zqF3Q<t77iW4d+XWmZvRyF303OpSgR}gGHO?!`@p*SC8h-<=KsWJq24&`b5#~%?>W(
z+-$*h5LE2@vV*xx`Rj$}4&S#QN%xoBzU)ZB9mrq0J6AaP>Uvk9Yq;PZPM><@ZHK`-
zawDI4dzUmtZ~M>fzwmzK&G+P^8y&9{yss>2i{AaYj#VEJ?)INt%RQT&E4UBjpTFz;
z<+Z!++ua5C(IvX9MWE&Q*||KOyYx}(U45bB<$~wsdl%OSe&4Y^_-U}<8Cudj^tIkP
zuzDc(T%No4%md%6OAP7Pnw?lR=j|UK&rA8i+xza~LZH9k>0jpyo-@B4yMN)GKV2EQ
ze_`ZziGpVoFs$|!cA3q#z<O|>S^FNlk+1Jd3-a_m_9EvCTd;*lu#?I`sy0%!lgbH|
ztQB}^Mu>-NF&`R<GWl+{NWNS_n3@Epu_QInPQpe*Not{;d~gkAghX5>$zn7~0!c%u
zCVh^YdI3yRW0cgz{h+%Sl0InwDe=#S!l`QcT!+;u6=srv_7%o7NQNpDr><hWOMPP-
z=+r)`dhA1!%_6iO8!$Vj##*ddqpNW`NpqT{k<%tklC5gjB-xpUg4wFANi)`uQAvx`
zQdPkgC9CNmgVC6b!eAD5$6b{_d2>t^1=C+kUOPqY(Z6OT<T^DrVmMc<>F(^D+9-tS
z^C+Mn7RZKf{u9c=g-a1>!ryanzz@OKKcATK$7V#yA5O%kXC%H`;Khm1H1CJVD?+~T
zO9}s#6J6&={RzR(MFc)9Md$sHrDln+7f?XzKR<d~1tD6RpN4$J@w1UIznLN<z7Ca=
z12>gKsBTCb0i$q~XdHn`)+htZYAzC!>DdTBC+jbUqBHzSK}ZO)2C`guLe@YqmgZ$`
zB?8NqIDcIVPABGg0rEqzR|&4Nwvyih);&MZC&LP4(*(FqAekMDhDe?h1+vkCi&PD1
zjvj|3Dw5T0Oe{hVfzZ{Wy>JTn6Yz*flrUemBC~UGG&7odqiD1*4rPW?CyNH#;<3!J
z8w081scR)h|Nh*KxgX3g9e?-xC5J1+mMr$g`OJKVPE+ZgqQkXvWcf(;#E*}q*%D*B
z&v=V1uC#tvw{1PLc#FpHmRe=emyt@RFSE$%*b_yc`rbpcV{s}omF>xfa<*(B|LuFO
z2j<t)>XO-(8Z26DsZ$Rf-p?I@f+LXc*l={EhDt_L`cP`%5$#-hyFmMjthLCRi>#r@
z>gxXHMN`JK6xv`tAX?OC^h-TIGVMh=i>w_IT+s$|>iBzyO`|P8i;R}kX`v5RFbq$v
zkQk@L&<UvFqDLhWr%F<sI;rC5q#Ag-?%dWSj>1<$W7QZX)gYV2LQb=$y|WX$lbSlj
zCg*avP1K_`IhiVGI}tajtwU>a%Yg6rKS5)j#6YZpNJnPJR4u1a1VLtCCM~te)`)6m
zz%0icgVs8${#&b7i_Xm~d#Y6|v5M2dp6dT6d-~0+Gbq*>lT_Wh{h#^9Q+L2b=7?Fy
zAm-u7-{5<TAaD)gWoX?bo-5Pg87?FoCZs{)MJX7DvwE<np6OM>e`FhiV10AnCTeIo
z6kvtp1c`zB4xF+jxI4t9zFy@X#KFyA3@$(lzrYI#QHigzCLB$~`GAgGO~N6#szere
z*;EU{L6S=>a2J{3<6%A+<>TYh#FLYntc%1U=_w&!Im0O@HwIGROjHs@k~3>zz7pTf
z$}DU6!U(9`gh#wp3GytmyHcl1PIu~T$>mMGRdTdIz_hibPH!8L&9!1$HkDZC(q!(n
z`<;h=eeySFK0R~)yBD`Lv`w3O6I37=U&&l4vG%32Yb~F&-EO-#3qrFt^#%wH*2Nby
zFP2z$wr!37Bz8Nt{sssQ+Eo9x6KTxpNY<5W%`e>RdqBTdHX?}KgQYhAt#?-6`QS=w
zFntz+^;ff^0jm)Nu${`ZoT<}~tSwKS)YIWwJgKvfO!lugcVpw+|IJ<&86Bx%C6@%$
zia!ny2TY2$3H`+7ES2NLOHsIS&%n)3W~-E-__=yABFVaNA}&h&^=V<}l<_tn7vW^0
z1~*l_QSk=ZP;sB&cp}Q(M#`WS-(io%65LFbe^uaNOz;;Zu0vH;Qxx?DGX5Ev{(@S|
zdZc3C_ucT7RejW<aw{@h7e_K9<u<~#!=5fiGtu&X!ugS-Wu<Gm>&p({w$w;vtn`_s
zkk?mq`HG&_$A<4vmZHwQ*qUiAtAQ>VZRF@t)&LDRB8RKY5Q;@MXIV!mJ<?kgZPF7q
mT5EWJ<i^OB3An8x6{1XEvXd0$cs!y;mbMLZ`wfFK!+!y(LAkpC

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_92676.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_92676.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5648f59fdafde8cfea263fa5525e3b9443b5d8db
GIT binary patch
literal 6221
zcmdTITWs6b^-`iFO4QSm<)`8#-4-ix;@VEr=Fy~XoR{OcOV_2d<5f^Z+LkR#4oTZd
zN(D;Sp%U6b4lp2cSHM~^V9FdIE-;|kFktC0U@7(^N<l4f8z7+hn1_A1O|XxBY&(~F
zSoUPQ?Y56yfaJO7oO@pPaSreAO(p|^_Ji;JZ1kfVgg(WcQZp8T$65lRTZlmn5kP~5
zFEL0cebt0|kR%XGj45(TLknL<#gbzsDHS9}y#b!Ajvv-Cnm5UXqJ%*mqh-;UwL)MK
zWON(gDOS(u;W2DLrx{|{$Qa)w2MuK}O>d$>T7_7;tk-yzaGRI0u6|kfV&6;0&wBc0
zstEMU#sbuH?xmg+eLi!Ac{ns`cpks6!hsYZoP{<9{q>C@7K-$+c?(WenbRU#MAJ15
zs+3KxmyBQnMbko2=QSXQt)f-bjsqratI(ybI+7HP3)l;2J?OiCfiX2=O~t6{`iyJz
z*+siZD*7CvSyW?-MZ022ZG|MNpr!IHBC!_piH<w!lEko6bc*`%A;3CC1D1LXA{VZ!
zkW^(+igkEY$&+xsXoo3B-&ZkcSk(X;!VRJoV=%6WX%y?%@`xJ6@<zq-rV4%4EGNXK
zg5~RE*w$*nwpaMp4Drz^S{g(Oe-#-8jjjrfRkoL?5?u;+v*`FjI*YSPpm+XCqN~VF
z_H%fVEaP?PCS-EL%a6NtvPuZZhDk0o!g(h=en!@MId5=;l{JMA83=h9Su-=ra)9H7
z5XZW=$$B9)&IW;<m$fsje`HjU)uAatrg(w#Gpy%Q848r4=`zH~`XXQG(kd8`jnkn^
z9$xTr0ye~edu)&an8UtscqwuaGbHOL{fy_5SMZI>It()Y30dn41$YnGkNtwLt{^B-
zB!F~<5b%JVEGN^$0k7Z*4G;4y*p3}BOnU<$3v+>`-eFd8&phMhCX0N$Cm^rwGcwIi
zTq==e5=8Ja4H`-)ejC`kebe^$i|sQZZk(U=`q=hSuW#HdjD~`Hy(4T;Xy-X!yTDFN
zwnMKSRIv=>4~}>s%0ejU8E3g58`w8_)dS=b(iegWIM{jM*#kh3t*e6y+*})2gwF!r
z4=W*pp6o<6`z_N=Q^K3IZjYS#quCmth)pEAv*vA)Q+bnPR+LOn{p8Y5{Xh0E5{pN&
z-*`bXy%0H>GudZHCDXRZ$w&6uThHBmF43L1lB)m2-Wk>9Z1wMT&L5mRm^`1NvP~V5
zts|<<)wz<CRM#3c=AA9cR>`?LbwP4=MQN;YBsMbZPwtVNdl&m2n!BUwyt5%OBstwF
z-(s({@2FIJENUnz>P@LrLs|QwD3xz$d7nt`PwM7cqUKyfOOkxwTj=DS+upsL{90m0
za_&ljvd+cVB<FEZX0gR*Vl%VTNm{Dgvv}k;#QpvEbyC;q2M5wGU&wrCApP>d$H%0u
z!H1TiD2Xj~OU^y1;JvHTzSENP^n;_4a{$CphBy_YX6>`DOSYZKo<-v?&)+BSy(&F@
z;(_*okooq72QwdAq^Do~gc|tl>&Vgd7$S~1oZdJae&IujYs4=|&`8#DtT4p|eRz47
z8fI1!%oV`iLLwR~Q7XP7Q4Q-;T~Up<f^e%yR-<DYujxf^5Cp<+kd4oVbxkNA{$o{=
zha#h8%aK(MPi3S^(ObR3Al7hHIShxu+OQ_91?^Rm0izo40pE85)w0ed=$0}+Q1MKx
zYmB;-ey@R!Ai=1@x~(|F)P{E8IcS49*vt+})Z$ctedZj%yQx)>*zw$TDAC(ouC9<`
zzJhdRZUlQNG-HkuwE7jbr8tH43>h{snlQa-6wWZJ3W?5DNhL_sLIN+Y!eLd|2-5H-
zS=UOl7e)}NrgcQ<iV)3`lugHz!2wbCr7fza5#s!XG;U-uj0c;G>3VaU1y{*q(TIZs
z1r#BY8^#^)0vk|UN~2c4OnLrbjpKb(ji<a9;FPIGFU#0~UM^)}uBz=*LfNM_pl&K%
zvGA)%(3RF`5TApa>VWb}EgD2x)Zd{Nie)~5%O-vQGG3IN4qnUugtojLLkN;*p`Q8&
z;N0qUC5qcBYZ-Rh?}MU=5w1?c2TCWXS2X^haA3dk>FSipATC`r{HPam1g9q0fK2lK
zYpkp-q<Gm9WUmOG$<PeTK~3R-AwI@GEgO8Hpx_^w3Qh4)b@<sCC9TWaLS5xHZJcR{
z3o_9o6EDg{pHfV%8ZMI~P`vRbaBoe)!tDW!tS=W5+!^S1!o#12$VAYJ85wJr=q8D7
zN=(m(=fV%^LyPJU4IdaX^r19)NK)Qu`cRH`#E->}y~oav&y8njcWU6S=eFm!n%~hM
z(V4wx)8yGSeKtqi;)i306FV|=Q<`i_(@hw2BzELRPoz6?IoEaM!=oP@z2BYbIuX^!
zEip@$YDf&szc%+;>cy<9JwvrW=!kUZC|ledGtY8asxi`?*ID1Xe&c$=meDolEH&|~
zv8!*tp717j%&{5EQz`Xb>Nd4lvtYbOWLgiVse@_D!Tegbq<7ArvFu76zkB-j>BW~9
z`tEgS+MZ8S&!;WVKe9J0+1--eo!XJLw?+DLW^3dWsEM3jqt|Nt;elI+ZyruuPPS$3
z?P<%?Q8MRnEjd~xM{CxxJF3r_ZSm3A=<Mahj<<tL=3SC`SJv!~sq-5Qz14rSKiQG=
zW*x0djxNd3m32I`MoQv**4(mW-YuDTXU%O<^&`?T`-((1LUeMJIY-gCme%>}bJrJ%
zOiM>pzeLqbRDHtskZM}I3_QhtO_pi~_P8l#n)PO>`ZaJv^L+hWeX{%A=BPSuh#6)(
z-Z7;*a*eL}*16W?`FBC9g6@3B48iNY-Me^s;arY#<fxjQwJv9C$kp!no6Dlna(iJ#
z`QRxxyyKMmXB6IWQ$d6gWMhI+hgFbq)X*m@ewm7yqdXb_*wLh@8YYA?a;#j@lu?M$
z+|e!+>#ne-LSmJg2cNeU(x_D_B}kE0)DqTKNUL)G!I|@Ar0E2_HI*i6AX{SZbS29P
z<VR44=r*r37~K&VUt!gMD{7lswxv}Rwu;fioErWobNZiIM=RDD!$d{g{?FFNmNQ_&
zK8n=0klWnv|1<12KZ2#P90BYyUb&EVrWmhV#T|eS_YB6+0?P{?pO<Gn9hIF<B`x}&
zK!U79cX3_oM(uY~+_M;`gR2JktrfU~xQ8zun4qj1hMNZga-`-O%Y}F)>Bt&iAQWWX
zdVD$H^TK5TPL-x|W>PK!EIfO8iVgZ$Pk;@M2&1dNTC(0BoP>XKNOFarFy+@v$FclW
zK;U^jXfG$eLeeuUK9=QkL%<S*ho4veomVJS<Bas?9d(g&@WUE;DQ~Zh^yO`}k=`dp
zWOL%*>OAF`9ZMcd@7({Z6Td$Di?iu(UU;G*ZQ95gU@_a{7h@OmRL$(UJGFORw_W$9
zfoRr7P6Cm(#`nbb<f*!Z>kfN&;`YS-lR%`kk>gJsNMnxr6V7CF>e{`ohvcypBeK{c
zr}D1t^8<4OKe`w>6+H(B{TH)hovigjK(<41%Ms~)WUbxOsjbD;)<@1gGSz%F-;L{i
z|2KOnWVA>6m4pJ75ME;3QFzIgLQS<V02f?SaK9o`C5XdwFRRD=f~<$iiWk@`lU%W+
zdW8-0Ar9_{V1eSwM_B|iU05}qkx+oSjTBvlB|{yV2r*Lu_9({!Gb|It{~TT`YJwm>
zMaDlM)1Odtp3uG3c%yMe)e2YcEA<F&K!##ND-BAw5vDR8hy_-flx{PE`<1qvZJ)bv
z_putOjKy&mh;~AovpC{nOk7a|oHyFyeX+h34Ztf}WOuIUFhn7nV?~c412S0R&9UYc
k8uyGyYj|t|=<y_h2-D}(7(v)S8&V^S3od_d(27_80$hX|5C8xG

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_940390.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_940390.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7e8a9b11c02f35f3f3bbf24f6e288004ebce01ca
GIT binary patch
literal 5049
zcmdT{YfK#16~6P@ot>Rs*cY%o8gQMu>llb10_^yOF-dJ6j%v$p!0BeaGr+>Ki)RLG
z&}=)d9C_EO3Mj2u)JR|{l5uUx{3KGP^k=00VMEkzrc^>oew2R@h*U-W(Q{`X-fY$;
zP1PU0(%iZCo^#JR_uO;8bMK#RHV#3VdFKy9haCugjyt(x%Qkj60--r1Ab|*@zRaKK
zBaA*dO7+nM5{Y3$PHt-EFOVWV%ztwX_XO%W<8<lq0h7Sor5|Sn^_eY5unHy-4VRaY
zZGO%;`<!u7w17Ppffg+TykNP@^l|x>a(7Xml|-U7ubZDFeEcR>+pC+;bzkb}^7ra&
zw$ZEenb!H9OXoYggO&pG%+RLb+hIxUOa)w;DZ|h&E&}m5OOILh;3V^$oN7_cQw%~e
zYr!14ST;f`p<1V4xPZ&_Z7zXO&5yITVeY&hUgcC4>)CTYTR1;vQw#0-4jNTv1oX%3
zO5TrPQPwZ#(c3=<TA6BB%e-J+tXwUZNdiqGmCueiREJ7oJ5?LDKjtj3x0F|q>co7i
zO{K8jCsfY*m`k;)Wd@BdkmoLtS0eaTQgs`1Tp*FoO2iQWg+RZ4hXz}HbgzV6yop!k
zBXoK+AdmP=I;n(pZcK^}N`X;-NYLqUG$81vfE0)fiaL}1$x2ibeIA{=C58rv6#tka
z>E@6iXByG*%m^zhQb-W}w{$Ms0*cN>#z*~1bVQ8E5;jW09+ALVNT<d?BLkIR(5<o(
zkdzFgPJwLQ5*-+jMMcI$Y;9JEPK0zi7>x)zYe>ab+p~6MXXNdi5QDlMj2Ht8vozTQ
zn(IrIudg@Xib^B$SRg1i4+VlF0c9u}X$%aC5v5s{g3XFJI@S!mW^wd}C<vj*pdS{j
zL?iwYQHqG+rm;yskaL5<DEQ*|u~&~Ce-$Wt`LkIWc4;42f`e237gQSBbt0>6x-rq1
zB-XfUtz(_HPxmBxk_~Hot=5@#dXnsHlh(D)@zVzq2WAc=yHd^rPxd|aJ@PHLFW+7}
zcsAucyT-L^9UJAIB%dnZ|AF*y^1<Y?W4U|nKzpjZUAvHW)_p)ev^=mZH7xyXt-dAY
zY+0#JIXkqjFKo`4w%_>UM7pdxc{uTlIQ?0f>oeYwc2&&WoNbA-X>Y^gPg34POOq*Y
zTim|xshqnudo9_w)Rd}gTbca0Ep_Jdr=BZuE?xcd5;5Pr)R*$MuJ}^k4q#@vX*R*m
zR3=ZS9KNL!D;GZIQYU}<7xwbD1KI0#VEsrpWj0Z&!W{~BEm(MRtuSh!S~-OAJ@%gE
z9yf<nG>oSf6@eJ}F?f}{h<-(=L`e>^fP*Z_Q7D5fg`6N6AE=@tP#7b?u2M7-(*_E4
zm*l$+b7Q9aENH;Tq^RT)#C=X>G>?MO-YCOtuJ!DnU~?!IW8!Sw66XdefxgSe%qpeQ
zDkCuOQ}-<j_N`G0q?Jgf2~MSRNVNwit1>yx0b|uF&IKg+r7WlG*<YY?R;uKS>0p6j
z_Y>3OEK(ClB`+hNdFovbpXqB-U~Ej3PSj^&sa_rmjEVLA6VYJc#-Vz_KMH3u{I<cG
zhXBADXlFT}fmIO~#A7M0BB7gj+a<gw2HFPmxfe!oG`ry28G`C})Lxl6K_y6mz!8)4
zWI+}v5nTxa_zhp@_y@3OsNQFQ>mzkj2C)D^h0uhL*6E(kEA6^D>lsK3BEYa4l*$;U
z>orZ28la)GC&Pi!8$#gpR81bonofqnuVMK#G%~~^cw!S&|J2a?6$>@<HH&@A?&aas
z;r2D}xpnVL#?ZATVfl2b>D-#PW1AwporLs5nBt>~(u2<=IbmGFJ~K=zrn5R75kjLn
zW9*&Iz}|^r$p`FuSwy@INhx|ulmPhsM+~f$4q}oilbd{2X+IW>(MEb1S4GK*F@i>?
z2O+0PhcH7Ut_<Jc1CxuNvuDp{Tx7{RMrr{%cAIR10Qg!%TXw`dr(a9FmTdUMTC+;m
ztXgZ*R{L~YqHX5p{Zp%SRs2+`{_(`|q-()D?_E4RU%NQ*P<@~-w?FvhYE|ne*49<J
zb=BIM_SDQ>pS^ykSL=+orXB7%@2vN|8tvkS*|ln}S+A`7Yh`1qvT<o}t+FM~e?=2~
zC!w9+G9h<O+FhHj+P`h4Ig@sNmqU!_w^!%-XZshcAvbth)<H7vRW2P`^R#YJL`B;+
zBADYFtbK->xtw-X&ehG<C2y`d8X!r`otQn547_(L?W#+cSEe1_w5Q=KhlMe1xe;Hc
zT{QMM2tLV|{5^FDJP((CB8CJqMhH}l6zCWQefq@_Z(spAKqz^U!#HS*iogI`WN|dc
z6i6)0F4;L4r3$2#KvY9oR!huOAdM?h3thmw|3sQu$vuOR%BUt|b>^Jq1PY-TtC~yU
zV=g18tYAI~dJC*7ffL`$YcI5HPpepLm0*EA<^Cso`rlb+HLT-fM1kM_&thZG9kAgw
zsx0IKdvE9;aNa@)LSs{d(M=q=kPpU%0OSWoP$tJj-6V(;p`fT+6;W3F!GJ9K4;OZh
z80jsv3-DGrd~_2Y9N!o@=3{jRUJt<`-3*TjxHKy|1J%(Z#^XYW=;i@<av1$7QHsh2
zcIr$p9F2%Ri_RG+?3Y7RqHfCrtRKUEnJnHM7b8K@9~L8n%8<@aL~r;r&j@%Ez|0$d
zF(Tmifh82dPXNgD8PLag5B7-icvz8Te3i(dd3^@U?Z&$E`lL631%L7atPk*<Ma~Mq
zSa+q?vr*yIE^W9xTK9&-qg~wPk)vYHHf!5p-7~|BXIA$e`(x)vT_1L>zIk<*p&cge
z0<hR!)BTD54c0l+^ThMC?or*!1Q6{e?R6kp%coySyt2VoChMMvPe&h({^@lfT1{HV
zt{XA-cqm!1Si3Z}a`aRB%odNz9NHTjb@dBx&A;{ge(jBTPl~SoZdMe@Di#8=-Nv%q
z+Ql!*J$o){Z*iU~tp^?&-*4@F@!G#-FN=7W)|<Oc;QX>#4^^+vCY^(S_G*y10X2o;
zg*y(9JDtt7Bpe7jH5^iO3p_AoMZ7&G88-*rbOoNTQ3)QV5ygm5BO-KbCWQQh(Xj9c
z8H#h)CAevhhsD!UAIOB5LGn|mAc+#h=ZOCsvi%*^ZV={s)px45$SUFr0U`BL!$NpI
zyk#-E9ID^9pw6pXR-?<K{Xcqm^1;b3ZMeHbA(GF|Ye5%?9%7r?N0iNobK%+W7J}xI
z=V|SuTBEtr`BC?W-9|HAS-piB(+3+f|8t!?xW99iK!oi}c9<Ys+t(>nR<~yV!5yoy
Gpnn5+&og@f

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_965031.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_965031.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e6433f7687a7d5ef72c5a60d8287479a9f664292
GIT binary patch
literal 5371
zcmdTITTC3+_0I0>?6B`QEG#dFhO85eF^*Fw6gv(MH8wc5i5)wn+x5->3(GE<85<kT
zw&TiGmNb$<O~s-_f~b*#gQd`X5h+s1pOyaXm?&9IU1_EGBmUb2S4!HSo;&;Sc!NvR
z$49R;ch2M9bI&>V+;i^CpR86Bf@XKTKl&pVLSJH})SN|Na~FZoJYo<-#L&6In>a_P
zxNbs!jwBFEjHz-;QwwiK$5M<Q9ugh{JQO@emK?J^I1XbB{SbQ9*7RWqW4cPN6a}55
z88eH<z=F!gSRO(z>1KTh-?lY<*uvPalIKiiZ#b@^b7mc4&1GFImx-YBE>>hfv0O}?
z5Ai~n6GBl&F=332GZ;4V?5m*|8^^>*7zRbBSw+u8CluqMW5=I68iL6Mpr`+M&*5VV
zT_g`gv}R(r>*3k_Scf-BfUPRDF~BPuL#!0}N!K<bb>)$6(Iq;j4M;1StdtBJNQjP=
z;+oUIPI^SQXu<Q6-V!95RNN;ROY>otMRcxU3!wF&SH6Ss)nc_qyRFx<Kd@GfSR-1-
zVfCb6Gm|bz)%GG1y;wW3M(zDK^d&jTTCrBtj}HN_RwS{kY4DZk$9=L6^QOVq$$&=w
z79lUzi2?9((Vk>LBmjpa^J^W0hIM|tvJv}0UEPB@m{;V`B~G$lv&vRh)Qfc$QY&TI
zN)~7=Y!G##uV8(}Y;|9@)X7}dsZpboMeEZ7EH;V_KS-;hj|lX}-$`^C1<3&phtFLc
zp+Q0+C&K)A(5UEym|~jb5+huA0-qZy%!T74tYRp<$XFuGD2Ay~mIE3uBsezMq*$Zz
z$qV?%@u5k9Q%qBAbYxUeVPgUqK;-cH91bqU!V6rKVb$TgAHX^kQ;|0nx~PGf@+d6r
z{v3>TJiyz-!EPgt!X1u!4sRz{g*zNRieWO!gunp&I<HWP;b9(7`}tTRG9JPht7Z<z
z0|Zz`A;yZM;|hgc6^biWLSmeaV>2MBgkvBPGZb5ytO``9DQrKl7}<&Qp^I!pp^Glz
z`6f`QX`A-9q4uc+H_lInBW(L<I5Hj<MicS2@CX|h+IcS0F0d1m?SQp|e3oIN@sSYt
zS4hM|<180vW4k6Vhk#uoMiSuq{rjHW-Pr*g#c_XDVK}!7l*0bw-+<7N&^-^b+OPG`
z^rxFQECK28ZHrBV<*csRA=%pe?xFXNymMqZyc*bO>6WeC((^fAU3z3LAsx?F2hvk>
zzg!N;)lX(f&mEZ2F*}mJ^ttu16p?kh-aI*fcJ6HY)uq-A?@rmdGeu>c)#+B**_@*8
zczpA{bG_;Q<>PYTnYCd#&~tO&XP%R(s;sYZsY~{?uO3-9$$R@`@6nsXvUf0L%KCRK
z4axqFl<khcZn0*eW@+bgd@a1;KbW%RoOS8=`zKb(<uh`_lWQiq;gIY+w0`<#&#jZE
zZuWi>%A5(yhr_ZnoT6^KJoBw{t?5UXrax?69b9ddTc2JVULX9lWBtrWiOdV9<nB{)
z>)>au7gNTZyEaqbCcE2KsSjUWYgwK8gMIx8dG~<q9>|<HlX+?A*3UwjmqPN1pJyTo
z`9wl?CsOon+H{Scp=WE-Pc7Ge`0T2%+A9aU)~R*j(-Z4cpV%`eUz88NC<jk}PM`U@
z9@&DMuqjBXDxWooEcKizdK{n>#|js?cm&6Psd)gv=Wa6(Tlt#nHTOIc(O8MAc@IG<
zc-@sWh{VIVN$PdCNN&ZQafyZ*_ppBaF^CymANmymQgCXiXfS&Vs%91%)9PNFT`Kcf
z!=y1ugY4}_RV7WZ);}8sK1rIBmZbH5WgOcg@6Wi)RoTW6NjsxUI#RBbdsxTluhL1U
zU@n;`I@MZ(p#G48wM;Enbq!5lk|`QRTC5UHq8VzkRWrg+8lj<4->2QzPPB_Q(Q$)Z
zDc)2FB$B64&@gcKAgFRzf-Zv7e5qmAxZ&A+8oJ-<w!6m6=tQ_~U;|6VdxjX+!2-Gg
zHM0hF3RTEB3K?Od7lV3*>_0sCtYSDH79yi+9_DcvHc1lK25*J#iiIc6GvV&(x^nv2
z)de{?9OJtIC@{NVC|?WRw-S2Ww^+AOw{&W`W%(EK&h8EWfpxE3)62C3JE*V7@=(SM
z{AhR*DikAJh8I<+D%_9p;`TUu2})98isc|dhxVumPtix?LeRtQh7nu`?#lIw+k;W;
zvqD*^!4UQahjruXa2LQ`J?<KCr`8*_@~B0J9D#brJ%c&8Ch_=Ken0CUJXml}RoNxn
zb1*Q7XM79YcM{55kgst*G#9!uARSIUmGuSYV{@@9$EChmeb#Kdwtr@S+Ph?2c4unZ
zZkgLMWLw7EmNh%Cb<K38I~Vsa?7wAh$&f7>b4#vy=NHW#a&yN<bEix;NXKTM$ksoy
z_{zd7Z-r#C79^Uo?R!3$zCOJo%H$K6zht@N_J83H%I@IuBOC5r(y^S)A@yeMF6pPY
z&An339nv#92$Qq4b9P_4^EPcx9owM&Z+E7r-#U<`J+rYa?V9aVp`~M(-TNEMo00U+
z-zMJWmpgxdDeI`tdYiLO|6koE1C{q7i(Tqd_c#I$C^zgxygi$v(8HG!kwkDb2}YmP
zF=SE?IH|cjZIN_Dy-13>VL~X29NX&JYq&wJ6w^r3ppl5HV?~3Du2$L>$%MhuimN0k
zjWir06%8(qKSY{QlPC-#rCMh!X-=Rhg0yKIvsWwvXeqghG-Jf4O{3L+%WL<O;TD>0
zs}+s4Vya+IP5+ZU{m-;BtJ+zTgvM|GXR)#E4p^~`A`RKzHW2*^&RY~gXmI<0dbg0=
zA{Ur&P{(xxMWGn>Vl=`kW`X5}P$bN=a6i`|d(>}^=sl=LT5{)IR6*Grq!j~vT|`C|
zBYb(ltyWMB&~@%nzeJe0VjPA~5fz_ixdgA~O2rU~CE{$bO3l=YwVX*q_(R_gzW^?<
z@d%6m1B?ixniPLO?c-z*OS1fhn85Qmk(V=dAwAnv)5?;$Gce>dJp3Y<04bVAE}ztw
z^HfXyIiFuTo^yL4Q98X+-#rU*`sS^3)*Ph5v84l<9eY1M{Kumo9nHLO`ksMwQqmC^
zVsl@6dFJIDB+C99-Vf@p*RNd!rj3%G2d3F^?eUq%b98mO{s#NO#Px~w=YeUar03w8
zZm^}IY2Q*{d3vq$Gx7iw3%gV5&DA$8o?STm*2_|FsvnZ`zotcntV$su+oPK0k^1g9
zyxSVJy*O`;)DNEq|DNrZO54AuFO4j2X`pajuyXydU&YHn;o`C@1|PW>;G0UJOAv?u
znko9RsK7mop{htC&I|0NNv?2Vpa$7EpWxKEQ-eS;7osLKl87<ak-Aptx-*erF2vYw
zE(DSwOc4JSba_2N5MLt8pON)1D3BwJuhm|u&FdP8mx$~mkLL9%u=l9~kT;>m9eFdR
z0l2%f3_ksnB4|O4&5N;xSl+4*vZ0no-|Kp(D{og(2Wr}}C@zTKI5E1ZM><PkseBL7
zMA*~b#lS)!j{wa2>hP^1uLn36Xv`bnou^P;L*9rX8hQNlU2|ReDvX(m*rpk<&65No
Ytl!XM1mXUANRRCG8@7fkX4Mn_0N?7X{r~^~

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_984659.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_984659.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d9be1bd43060cbc744d462f4a3644ded9c3c5357
GIT binary patch
literal 4473
zcmd5<Z)_9E6`!%!>-B#-b`l8C5>5@cB&6X_fxC!14vrM^hoZYyO}NT3-c4f1_J-XJ
zfoNUrNmOSSq&TWhG1p4uq)K&2BywM>aH<5~`{k^lt2L#PCHT;M%Ux2bx-Zu^Yp-om
zqx95P>PVh>^WM(;GxO#*&wp~c><HSSnFr$^xe$6zCq}bYh|RBom`6O~aU6}5M?8Y{
zxhY{DVK5SKOxI&9EswlOU}Dafd345`U%_V@^G8|Ua+_JIC>pWytbk(P270Zp;B$@n
zpx1Vr8L?F(v)@J|b`uipRa=f*IOtfXriO_1?SaeZ`a?s6s}MuPS*FepUOxZMK*Uk!
z5(l&yew!PZZk_^txy4KdRU3J{RFS6~szbHSSP)7%>((%}Zw-pas(q=VE9Fv*!-7Ln
zZ7R1!Z9_Yce*Op0<yM`ldj{q^>f{Wa^y`#I^{Cbfu#)nso|La{HH~juQ?cr!t5h$K
zmraHTsV21vHW>ZV#G_HuZYsCX_*56=QhtTYQm$^*zk?l<>aW;&NiT1%vl>u6+pL-!
zT4kzMo9nDLNM;qO&AQb9#P^cjWyXjVqr0mNx`l$4A&DMM&_tL-Se_sjQ5hGcF=NAm
zSfb|@WQj?M6Z@njj!EG}D9RHyEQOO}0<n|_CN73~Vv!Y55`rznEKVuJ9OY%gP7Beo
zafR4qMT+u5NR(@2qDoHJxYG%Oha{R65=|xv_8JlMB$(u6B`hhr@rW3gLp;Gz!b#$^
z9Fm3Wx}(GjHbdg*D6uKxgph=fWn!7uIrt_-M=7}lRPJxszJ9-ZT9hW_$#6vI9uG$*
z!pgXq><W(wNu^tsBHfCRnCymGw~)9d@O(5m7J|4GF&UZ=q@)l(GI=WmVuKkGA>`Ai
zj{oq)X^;?aZB_Ym=>WJwcUb-gIt^{Pk;66HmFddiHG7+OuIOpX{w(tg?MKgCp4s8d
zaQ1qxbIo;7yYRx*l<momFIc~D9ZKV(e@`wv*ZaEzzYl&A%%9CquN^p9@SjX`MNez4
zJ)@?XVpCh%`Yg~g-#6EnJGXG~-rx$ediH7HOxjlRwSC-^<8vnqzSkC_1z-0{$7<lS
z>#MDwc0ajTI67GH4W=#6obK7aOkegw?k96Y`M`tlN+3VBxNkM`)cJNAm%O_^_T|p!
zS_|Ixg^LAm*9yC$e0F7J`cu!7VBrV-1#ds7;Ow(phRgc1Q*+?%0{@^V&*x8mlK6r<
z{$(?A2RC60kVN59@<B&fNl>PwWTb)}REhxl%V>2MaOgvB9;ql+MJ)Xby)$6(SDcDt
z6@;lt0oZFeW>RQ|=`F?@RBg;~D%^X}(hx@)JtlQ`+svC&49}!23iVrWF}Fe0M%7eB
zRW{9yVt7QjlvSadpf}a3qmdbIHdf6szrnAKJZorph1^<|;~myFmRHxqelV&<WtX|7
z$}57AYJL|5ZA0tdKwC5s3$NUo6bQ=;H=+??ogV1=e&{0g2SqoX2C{hyx{vTq4^IZG
zaA<TJ4A>vVVAM3Eg9N}ATfT;biSW@II-CiB7WAgeG=KJMQacQU>y3vK*ZA<6nLX9J
zc%(NjM#6FV3=n1EA-ZfAbpO!MZ(Hu~xwmKGN}kD&6b_wQ+kLvQ>ka8O5bDUePJ;@X
zw*gkrPAti(gb*i;9GwA_1YC@a6APe+a!aD>r6BFPpd+57a8n6QiqnDw@Dw_#g92g8
zfEl#a--z=2EqUnLZ4k+f0lt<4wt?7yx3|i1+p5t@uY>fv@RR8!fdGq~W7d|j-EnAV
zi!T4{)y&mg)18oZ;hEhtdpL6#Ag3cck#BjpcX99P=;Oqr#8dl#cCO_1YJEkI51`4v
z`_KMh!5_?btoeJif#;4lwDT{RK=!=?(+0}Z?`Auw4SU9(?YZO1%JVaGGYjp%P8B)#
ztSjTnhS#`VxsLl?_qy_Ut?m0o&Q|oc7Ja*m&Fz2pa29r>2{}F5C4J8$;B&Q6;H0~-
zISxJ4eK>`9QwqbSGr^@Z!<?ymD(hjSqCz!8GMh%RQdJpiRKQr4*`*3dz*VkhaU-~(
zSF}!B1JK~9wu+S$Tc@qjQx3rMEwou{Fhj4X9-Y<j9HS^oajG>&lV@8q;8NvyYcI&^
zy!vnLS``2rdA6fh9QBH~!I|3sCujPfdFRl*bEa_JzBPDC{-1MW#}jbT7*!51*F6;d
z8{D@jg49^ofV)mJ7l3z)4@(Cr=}-h&2}Q!P5bCL)9Mussx&=3=o_%Z`ZQ~pda?)|C
z$qLma6j=(fKzHn@UTyM8VjYEYQ=iWWk|^ttMl6xIm=uCGV!r`!el4T}ud9lCAwHTQ
z9w-#2gk(er#f9XUGEST~MEKIED`DlekdWkQjcJP}C#Pt&DeKjUj=A8EAWy{=S+0lJ
z{bh)C>rq$jNmn3%x8Nt=hv+o4!J(!W?NTYwstuM}c59bQ{$_2U<ZIS0Z8?#zW!^RC
zDsh2qY~jt%4;=sFJCFMx^?&~3pKe(gAFEx2Puw~-m$;_v;BxcBeNcSe0HK@JE`ZSC
zrC43!T66oBg@=j7#FGmkbg<gFtpKvP)6rbZ!ruJM>anNHn;T99xZPLUxBvd|z2V<n
z)%wzd0M-AV7u$4gR|2{NdRPJN(hG0%jzR6Lu6dU>2-Plqm%e@M&h4@Pi@zLl`n4hb
zZ3#N{q^ms2<$B^s9RB4@LH$oSgOcdk6LTyIe`+FPQdWeUlTzi)eosisqNL}ee*VN!
zPMFY`80QyJxol{s>$%>9$WO(EGtw|jAw!US7rG5I#`rmM{sp=IiuP`>$i#iv_Cec*
zDS%JF%;%qX&N(-%bjHCc&c-wG4O@A3xa(o(V&_+MwrNHtXL-$$0QO{0%=gaqZXh7@
q&Ga4D$<^;Y?tIj_Nx7S^BkcN$i(%~l@_jS%>|1kx=L3iC?LPsU$GIy2

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_992208.cpython-312.pyc b/src/temp/gen/__pycache__/embedding_triton_kernel.py_gen_triton_code_992208.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..123a3912b8659fff659834ebf0788a62cbd95fc1
GIT binary patch
literal 5515
zcmdT{O>7&-6`m!R+$EPkqWB|;5@XAD95Zn&OLpuiaqPyHEn9yn+QhD9H3ZFFNfaqk
z-CfC+IxN;ffRJbaQ9uFFXaK7~fJ(IhtEZ$u(HcFa=%L)mh>5KW5Qq=eO^I9-=&5g(
zKcW>nPSf_#0e0uTnR!1m^X7Xqf3n-H2+BXAzZ$oB5&E1km0~FqTRsY*MZ_bXilgCD
zO$}2zZ<sU=(-ab@30+S`v{ds3fu68E-bOgy_=I-4e*37IH@!>WE-M;lEQq)9W&uq!
z)X~j6p`Cp~yQO~nD9c;lH4R&;v*zAK!&U<ltW`g_St@AXATA7P%;|wQ&h&?dG`36(
zX|@v8Gx$c&*@1|o##IJrBYazj;J=7uSl&{ZFjT1Rnx}4;`%{jmj5Jh7I<W&AV<QNO
z)GWeIY@aisT08W%{tCrY*nYcge-0W`4Y&cDV$hOufi?@#04-Kh>-~+uv4l&xYy2`-
z^ljJJK1Rt^c7m;vRbtgxv7GYAT%{R2qA_=ytQ3?U^uynQEid+_eAtUQ-G`<c%XQ|2
zeYmNrxfwTOTAxn~%*U+Hr&-tHuhCK`Trt9aG7h)!)GA%^C)N6xryRCbdce~$@U#uL
zr2@DO+jJYx;6RO)I=;eeZ53a2iCq<c@h;2}zvmzhQoAw78)7}Mvn+0fp1>R&ycX~-
zLE+X^J8s8}J~OwjV^59EdNZT&9(`smyqjp}O*Qk|i#>SnoE>a>-jCAg{kt^6o(U(}
zi^mH#)H{e1jgOBaTs1yDHGX-%Iu09fqwbdnyH?GWb*0cO3Nk|?3DOO6CW4e^;^o;X
zA!yL($*>gDOi6iM5MlL8B}j<`#Dbh=kmH(lN=%N4;mJ^x*UVutoEQ@{)0`kCC5;)4
zC&TiQF3nVGrh(-_C@GR?)vQ8Xm=qFnNS@V960{1zeVScP#)JeYlR{Ins9CQG(Xnw^
zr<vq*nUI7Zh2la&vnHk|L%IMM<3p24UWjWJNfx8LK>VqY*A8!!of=mj0O}6cGMyqh
z6e5Wt5e^{In5ifq0$U{_l8kFK{3Oi`rpUTji9^ZJQAv<BSJ}}L8zO^^;YdVdBsna~
zp@ha=jVB|qkj`qB5+fvdjY))bMl&Z$TG`QfSO)K}YnJL-Xr^c)A&45MR~02ChA1hw
zmzLQ|oC}o%>}3I1Fj!K}d`<V4)HC6@B<+J~?*0blpCcXDl44An3P*&F@o*#-mdBHc
z7sF$)eI1e*>5zrVsSe;egvqM{&qotuA=m{unFz%MF(JecP0fa&yV4keoeFh#cXb_p
z8G5vaZK=|5@i;g}Ku`JzLQ+AG_8_Ngeljzedwt#UjMDqS(NMz`8AtZHPnnhi>)13S
zn>#zAa_t|U{^f;VTv!gTwXN?vsd6Wk9_Vv4W_vSlE9VNX=G?2QYyYxmjZ=d_y{hyT
zn%i=-YV(0S?R{vq%^%1d$PQ#rt~TEBulVm-k1A&#xSMmXT;DSDnfq{>Df$9wuHXwS
zF{<ymwB<pgXEC@C%=Is~tT!G>GsMCxs_WUb8O(ZGbC*^3{^ceWB-sZZ-(v4VZ*Fk;
zyxMm3<71z=?s@vtmPcmfYt41$#+I&s<~^J~Tk!8n_rq`Lfa-rfeWBogcGYmlvSL|l
zU;DxOfs?BLB<XHn>QnuP)?U5aq#il1wp>W}6?*zV3ICx#cVQ{E*01hA^=aF8@^8JJ
z9t1ypdzUV&-b4A$)2jD$`rHF=)8eItOS$3Y{c7Ow+RR<6db}_Hy|?apFQ(5GY|iYl
z%wXos7hdG++-yOf&dn~wIp+6g_Gg<G0}FxsuAu4)u3MjnrJ>F5oxgEDeJMMq+S`|o
zEMNSLKDq__hr}1*2l1vKW6cOBMl*|oJS`?7<rG9lA#&#+{8kolXc1vFL0Wf|5t25I
zDH>Bx>@}s#AWN`pN0G^~*2_elWEwjFp=Rhq?@*xo>!s@?+8W(;?rWolnQh$w{5wnK
z=2NzBP!7oiee^O>d%-EUVIww=8tVHAt#xj1t5gN-QwG^xR)Z$$r3iC1nJ~N|#q!3K
z1siK*d==^K8k;dwNwK4blvO5qQ!m&`NJ#V)q#h$&JILO&mOE=Io~~F0|G!PYsVZ-H
zihTY4ZFv@3Fayc4yzUgjhVPT~xMC>fEHf|6L?glmS>+893VPlY$=x$(+>t+m4oGX`
z;VGdcYJv<G87D|iQer7Lb{-Q+>euX12~tKvj*d+yrzOn<Xe!T&CrOvNgrk}>AzX*_
zm%Jv3fZ?Go$VGf~Mh8mGT*_!cPCsp8H}UHg@@pnPvI!a$68(fBp|$O&Mvp<Rl*r|<
zCJTtih=ipI%HkmKXW*0e>1e!ZMXmd8b=>Sw=_aK&JzQ`#Ew(MR-RM(ZSFRN}&-|&(
zsSku(v750^xnQ0S=DA>jbIqT~ocQ4Et-+gvt1sPoZRNFmYq!dE=jrY|*A3nGxm_x^
z>mJvhr`z*fdy%m!KYrkF&&M*c-0`K}y#L_ZxsL{ZJ@AR|&w)P%?l~@{jSt-|_uWC&
z9bA5H-QA@O6r3)lx8Q70&KGU&pIuzMvT$XoY5Cx~_jsOrS?PI5d$Mn;w7<Z*AX5}r
zuE07AY@_~n-DjIs7Vv$YZH3Nxd&Zs(ud~gM)7-o@W6gH{)DFT`vZ1NqYAJZz{~mCf
z%$s|V&8hT>FT-j@;H#GE>tq~Y4xW8f3c&%R;D8x;I%Nc&uDQL{fgt?=8AfaG{8dP+
zS|N8$^X)Qxq)as$>wq3Pm|y>b(6yDVq|7zi>cAWv@qb4fBUhmin*bOHJTMi{DHKI1
z7Bltk#TB^3EYF;PiPw1b-&(b=_3Wu$vBWFh0()xxpX}*><{hVdXG>8v>-K*Z8&BN<
zJDDS90k|DQ(Z9iYiy{b(4Fy^^NaO-^PV-^$H9~T-AjzRfSQ0|;GT3IibYPD@0>G<n
zKC*#!v>Xkx;%TCZf!jA+d}Wa!rT*mM6FRz!B$?<Ks+l73WI_m9H0w+<622OeqH}^~
zuL5m|k4|b%cyUY%iHJa+IAij-W}8XENc|ZBZyJ!i8iG5&{=SJOrr-$z2)>Q^;D;bh
z$7M+(kF+YPmoVL-Pq1oF48xFV_@rAUU}sUIPw6Xqnv}t!uSI#I==LfDMVD9Udt^f{
z-=clNUSvJliKSEdJx70g_V@k2>Cb=n;v*C7GAkEg2;lXV%#|YBm>pd8-U+M(KAwS2
zhgmrXom|8G3z-*+Y*Q|<D%_b|nY?=rIytj)=8*@P9O-Dzx74;g_wkW?^r=l7T=<pV
zVqo{J%Qr9o{0gL*L4fXW=EV+OJC%TLk3KDr()X~z`_xH2U7fdC8GLAO{C0D<?VS5p
z{AJ-yqYUXeB}fegZF;<ky|8bZvvfN+6o+^BG(5*NwnB*{scXiGsH|DwY9YzO^(nD@
zU3gPSNJ&u-Nj(HKt`sw&v1FWILAs?<z_2IaQ9T_OPKr@b2SI|Q58=0Iq$uihWcv%U
z{}r_rDds)@4gaR0n|f)p8M)kxwguZ}3*r0~u9a|Y$n9M`xNz{x0B~DIWU!TFenO#L
zd%s|wrJMz)XC7zprV;33nKl6pkCz6o-a|%hvdGN6H*#ZS%L3fi2!$y7m+S;ZxxW}O
OB4+^Jh&MQW7XJb?QKwS?

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_126106.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_126106.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9e11ad9e2ae1c7d531bc3d0fab2fa4f4357b5624
GIT binary patch
literal 6447
zcmeGgTWlN0agTQ-k1z2hN))MQoQIgmaje*eWF@w1%Z}w(b|eRNq$WMkypu?Y5Bct7
zTgqL*6ahjt0Ysr6qJRKVfC7<g12+2Q00p7~K^veyJW!2@s|yH-e$=7>9lJmIXghm+
zh*sz*4FWVDS>SeOc6MiHXLfgH?$0)x8A17H?6=|Hc@X*nBjutm0rxWiEFu=ML==q{
zTVj;Za9xZXr3l0k6B?iL)MCr(IBLTBa3984vUdL%#ZqrmH%b#mjjaA{G)h<2H2`MP
zA<k48VV)rZ#w|SloN79L_WX&LnF}X}RBI9JA3WcG@@&Xa;)fdpd?bALPf>VFB7r+`
zna~y6>Y62Pl<2Z!myx>4NN3eZSYu~l3CVt=w3h6u8jB^{Q6wZeW}&ald&0D10H9)}
ztCj)EGi7(xO0^6^NN%YPuf^(S!H{JMp$}x0>#JthRTiuOl6{=0lA~JRr7<_jGDq1X
zy2}$;sw|%c$qnD*8jX@eqGsXvN=`|STf8&b3%zuy*Hr0k65-evi&S5hrysrXDa`Oy
z$yCcegyhAXC7)y{^OIbXu?n_Ng8o?jO~Va*>Y&K}U3luGrV>wcnNL|Nxw&d?4J%5`
zQbR@0EmdP1ifdQbQiIf@S-O0}Tct*+b=CzEHtsUBdB@B)nAs-zcR8IkPDOcN+CFV~
zWyu3FV7s+x7V}6ga>ILnq>w~{?JQ+|fK{y(*rknZuaenYz0V>nwS$bFSqt3r8h1z{
zCwyO@GtvC@zOuw+EfZ)41&rr-e4)3nCIf`3XT_N*P9-DpvGFp8fKH`iL19wWC&Vzv
z2kfd&jH>1-J~7S*V@!lq4M9E_ALmpmnh3H$O{n@vTztM;HO7M1BC+Y1s-NZfgrFM7
zU<4-UH9*xD=aJmCDOE3s37+GPu&iq4qFjuNi;OrE=uqk7%mwapl#8qS!3fKoSM6HE
zoK1|Myf$?K*pug{Mb##Ve1zqg7>r3=dKe8qj0z8<tZJ{G%W#)=c7%6!2&$<x1(vFS
z;cbxR@ulJME2^48(>!x2D2Bo+jlnPnYBD6o#sr2{ofRS@aF-dpP3xs-A~eaw86h&u
zsYYQs#$XMZK$}c7F&+u2WH1y`O;aMz2x5?jy;ndcDsZZ$$N=+;gFUXO2C+EL7U!-q
z+iXmUD9Z?;V3bo$utJHsF)=MNz)<J_;oEmBU;T97)dW8&Oa(*SzHl%!85F~b_}<_+
z*l(Y}hxUnFY-%51`^KU{A<VE`D8X{w%v3n??9>bc1P1ITCgKe4XZCj=+W*`kpr~!k
z*j1L9<oGxjWvb`mJ&$wUd@qQHUpC?2aC(#I!IQ}8UbHRPGQpgqJvngK?wptB<jhdc
z-j+PQX|vCd%#EZkXS#B>r;?}cdVL=lmyFBwO0Uv>Am=@}?(I>$J->H-;{Dj0^B&Jq
zo=vxB@$kaoOfcKgeS1XdII`+gI*#YuCst<^_bbV>n{|%)@LV`!P5<KN@U7A7qic0N
z$(Qar8`9IiZcf`k0<(3#bFMReHhtu#>z41jZ_Ruld7@xICRch;p*!+sSNaXb{MbE`
zFzqRjNMBblW7>Iz-h*k3VtyRcp1?HM12girWM2Qg@#&Q1F6`#w+{L`rnI2HAEz6db
zn9|;-So`jbt;))gR~754d1qs$OL0D#cX=KdsXB8?2Mk>Gi;WA7nYNV|m8PCMeV?@{
zeXl7^ujQO0DZ?gc#Jpr)KD5#c>PXq{);BDkS~!*IU6vL9fn5E;lqpYJQZoweO_62d
zq2)ovzdu*sT_R?>KRCE_@HeiHd>{I9{w~GdrO;g|GVf~23@ENAR!oX(f6ADz@0c?c
zT9EgdLOZg%(gVvTr9Pn41y)Yqo>97vDRswI4=Hs6piRo~&gr*Kr!J<2%*6$Hy`fWS
z=v;B%YP#OE9(Yj+yqIe^@)zppeK-avRF3&DQV*XNEPVxsV-ZQj1n%8YSfUAfSltyQ
z=+2;D5|0=~;!%&FQQtt*xXVV_AnPT)WEj)Qv{-Vbz>n5u0$)i7E`pe-mcAq>OO_w)
zN6;%l$Rp_bUFI7qblooN*QRf;Uz@(YKDi73+VpMywdvdZDapt}%zcx-0bu|x1UTLc
zC}29b^&col@I$eMz}Ia71#MxEzSWMaW4KB}r8z=g8>hKMY^g2$eg~-Pw>%E7@zo$d
zC8%Z$YHyJcAi;lygHxRLD5-{`ZwQ!pY-1ifXx@)2?3OiVs=nk8urFYMkxKNd)HpaW
z0XzB1qs#XIrn+lAf9HVm6ZnLGK$S#!i(|fTt}o5c9nH4(Dwf_X)tj~S=9^kS@Gtq7
zhn8AbJh%MU{kMm%x8Cu5;{VvcI{a~4dMMSCJc-|to~)%g*}qBcS?*V;K%REwX<MFd
zgewogymii+9(vdQEx^Wgx>ccDGnaGlz|r4?S?0}i=Jft|VVRns%b)i&<X!H(yZ&EK
zxb=oYC$id;XZXXg-w=G20-;gyuKykG5afD<40l>4SW?!pluWXEnW_r0uyJ=3)&O^~
z7<8kt>U02`e@9`BaK=h^wTf%45W94@$Ed0VgWkaoP>o~hUHCQ}$H?!*uSSjwNg5%M
z{|i5fVomSstEBu<n-zn8Cv6&V3h<*&u@Y<j1o%!mC2->ZqfWnPox+=kb;_FGr(}Hu
z$p%S30g3O<a--A%zagGM=yk9JL_oA?FOQRG)}lo|G;1xjwo+SHYVEi!zp>!QX|_l)
zNX8d{^4?xZstw@V9q0HHfb%DD)sHLe5Ba0G!tb$4g{IkHKvzsE4J>yh65;}S%_&1}
zit|Ls8=WNpXFrexLAIs2Y1LFoq5_m^5jjC*LO}sClxn2A8hO4NIlvENIWFJ|@2BYd
zUj-;Yt9r<FAsaM8{>wtD%;RuG%ZAxFkAE@oIEaBP8geIr$BsT=Qq5Y#pyh=8%b0A#
z`CTbhgaCrpLJ2k!<MAS@xgs&--8?5uM@2y;C%GBbv`wiIYj`zkt$>3Cwh{P*&%mfj
zRG^W|ojkK)cO*}5)O(VH8+Io^4p(yEfdfI<VOz2-2Ul9|G%11OtD~!fYa>5jA7Pad
zHX9Sxyy9kK^WvKeZ!Vv?P2bu3nK!#<cx{wfA01al$Foyc)*7#Fc0Bo!|3m-E#GTI7
z!R+3L$sJcW-QLB%g}!AoBn{zg+tE*_|0MrG&b|>^bF&*wkKOZFz2*n)|9?Rs^lJIx
z2oqdt{ox2x*37*T;;_q*JX1KPLvV;*+VDNT?t5DCJ^i__YpyOurbaete`a7gqBK8u
zJCJ?hywd$jcKB!6*T<CM@oa?83fGj#OaUipCw0)A(hceEVQg6U03p)_-9}^kvPWrr
zDrHQQzp@rg$iKJXKvsA1oEA+6Ec^(*Glt@y2-RL}pN+zAt!enzpweZC$FZhLPDDib
ztCNTeBD@&97W8Y^l*e~OwG^)#GY-F3t|M)QVjNGu5KFMrQSJyIg>jIFAR!1<fg}jx
z3uOH(vi%J;ZxF_Jd~f**x*p;fQD{XD*Ss_*71}hk9l=kDu7$2IJ1}~mL^^A6;FluN
eMA+~56Ns>VX&og9_q}5zvOkrp>wL?iiSS>NKxl*j

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_14965.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_14965.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c8b16354b674d92d66327779d1f82fe5a1b59361
GIT binary patch
literal 6506
zcmeGgTWlN0aqmI$_<o6cKNH&$WjksdH<m5eN&S#zReq{TDpkpW<{c$U6e-`GEK4~8
zG!P(U6F?;TAsPq}`YU#AApUfL0(F4`4bUGR=tjcT1q4Jt>K7e5DA1pF_Q<1Xg^JT4
zK=Y9W?sjHpc4lsFcXnp~YPVYuw9SRzO_B8oeSs0ZX%s-7cnE}65QjJ-g2qcdF-~YW
zIZKVx1mcNlom-y`JxB8Nw5@8O402TM@es|?@6mV4T;nFrz@uqbjrqnM#!WknGdql%
zYmbL4oaH@w++6u$>w9S2LL%N$vCX<j_-&imv~#NY_{jMazhFmCT~uu)@Z{O^Cr^z8
zt4%ioD+SLJlE%)Iz@?=&P3q8A&k=XZ^tkIeoMeU5UBwAHwl|KDop;K*;+`sAY}vLZ
zBiXeCV-?xnDt=}gGoT>bD?9KEj$DF;05E8(XshF>xKFa`^Eg_UYen(;D#<mLitL;u
zBz+>9c2vL$aMw`L(;&I^VX&x9A3urSeu7ZEQFh7nk^!u9%Ld$Id*w#iSb;sVNr&T2
zRd&_#5Fs~JduZCLYu@U=*>2qj@n*1#Dcfb%^@Cj&9gep=#}-m<`JQZPt<qHEKg;!U
ztM1i!TNQ8J)>rEg@V4Q#Q2EYwxj}Bn-xP0<ePzh^92u?KWORUxX1PQ2jJ+(WV+lh(
zxh-D*;a4;Q4&M^2HPGUct(X)3w@vq@?2+v{9Pg~s4#97GlPS4VTO$p%{;o_-H*TMS
z&~)?H$8-<qo+HpA@*B?ycr$L|eLktrQK@h=<R?@ECoRtLeuqj*5!Es$#3qHnEF0!j
zV?YQ*CwY~Q!~&dZnhjhF&(6=Ph7jPAYFOfhn5ddG?3Dwmp~Or|F_q%4&8Y@aiU}|o
z3s)_CgrDW35-TnGyHw^lJIY^)@KM!pHq5c-Rj1amBeBU-*XBk+2X%g4QthH7ggKs_
z1)kXDXVIx=QSn)nQ(aYaBfQ97{@TdY*G5FuT%HBmD&W)>$O$;83OL@W=HR@*UJgjX
zDV4$C6c0W!#zG;Hg<dRup6zlZ7Mx+DtQcP6Rg*YB%VO7<!If+zHW?18R3I2snGzeg
z+@cB4J{W$-Rn=C(BO<RFrP3r*lwV*$hH8#QI93b>A|M<DvsVKVmC>fe<|VNU?CgAA
z`}Z4t3o&6voC^f`zNtWPCLm44qWc4r@VELzA=oGJvvYlb^@Sn<af;>mV2tAruya%4
zm*y5(Ah7V4q*#>2<Lt`^55M|TAgCQ|Xn|vAcp=J1*y^dQD1q<;!XdB@$2##}uqqSi
z=^o_vuGlm7Y@p!kOq_Y-bT7wK@$AKdvm-IIVRtT%rN+`%vil15?!+L*-%7oe{#DMb
z`1}QXZ({I~*SB&cb0izc?YVVWdEwx_E6NM~_s5j3!Gia6Vr1RnPMm(^u20YZwl!@B
z`4-!9PpT(9l0J6V^J(+#=7*Mpi4z-jP1&yO#OHOrNoL*V%i0y&?lnh!woP&Dc}x-Z
z?sXk8koNAP5jlP7xZ>FL*hJZP7b#@+KD8l-OSA2b?6~6VF4%ik?Rypb-n+*?9lkwW
zupdg2Fwb6}Z|qTQJs>>a<X0SiEWH<`moX6Ei{<&AT9Bu1r6JRh?YMPRX*yJJ_piDK
z6!*X%j{kA^_rnGE>7;Q3IC?X^*|A&3f~PNOdQ?}xGME|69?mT&EiV=7`jX}~hdX^H
z6-!cUo~G;>#j`tU!n5{d_GIgG-Aa?c;OR}8));G2NS{v03ey6tj5B>mVVYsQt|etI
zzKnc(iwBX_kv66FCr+$88?%QM=dRqfdw!*RKyeP-4?S2^j$Kfk7ZO8{Xyf}s*N2j$
z>HgF^+0l>Ryzyr4#3w^HhgNqTQg$6GwDtduJ`5)%>?a)AgeLrIz%LxsRHML4^FlOO
zom=3zuVpn~!irfzGMa{g?TsU_q#bA^ro|0$dIvhC(TzJ$X^m=<Y1t4W<BWuD(VEO?
zI!VZ62#Dio8qR_3Z7a*#fnLe2cA!`Cm>uW_J@U)MbM)7yZ|Sd1-_lP#M}BSkmi*fE
zE%_$d$Qe2MuIY}a<V6C>)F|>ZrBh76QDgHz&^EP04gZEsyiWXdb$pIOuw4iUbE0a&
zpcZvRKLzK~RA7$R!Vko0?S%20Ypy{<IlSZ0&Vmdr@M|hmdJ;}1(F{r}@l|*gFx6Wt
z)C~gVBs}5<yb`ErLk+DfGntuOS0<X{Kbg5XbFb@WG})gxwdQSH8ORJ|h0JS-ku{fZ
z#hS5Zf1Yt9&aB(q>HfU6HF0u-eld4aq5W%&YmKq5F%7V50a&)BZ0U<1IKKthu*$S6
zOndf9f$4(z-+)<{Eh$U-<qtqjP0-V_=IdJXc-OpjU+wl9jKv;gb0&s`e)!NJJe7v?
zac%GZ6ZQs_cSIbr_c#H$I?2&-ii15_l^>NWhstaKIHOFKGins7&eHLp-_|(OUFJ@C
z4^~O7m09B*OUhJ;uF9Wl<f59y@_zp|5<}E?l2@awEya}oMV?G^=8p_jR{rSC%KG?D
z-ZbL8{70W+C)T=n`A$A1aLxXsPrqlMLd?TH<t!i3aYGozjj~}H>ecN{zgU91ioFO;
zz@LblAfIvSd@{pXwTy=0Y~|iw?j7aciF-Z9!uiZ_C5llt9R<pV`=K^A!kO(lCtzGS
zhF?E}*XHZ^g)ghLb6ll^^IX7B3OMMhMvlK44)T73mI*@1i7P*-1l?r-7fn#-Kpj=e
z63wN;392nWty(2sl-OWEges&OIZ%zfQjHuGMz9@c@vD-03g-azGpYf~S19gGP}Xwc
zDAc>~DwnxjRM0*EI}FC5LJ|dh#{12xMavnqdQZSdKGdcB6}DUkLSf5j$pjak)zqk#
zip@|-3%ocVkwlf6;TKi&7Ntg-(Wp^t<r*v~74h>K{8q>{807ILhS#00#L#-3FL8F=
z=?2K<Nt}7=LQU--+i%!&fm?0&n-u@?2jdUUJ{)^zb&ONSxcsd6uu<B8Oy%9oySd?e
z%>DhJHRfNu^l+SA9iLRjC-ZYxA2uv(bnW@1<z~yR>H9qo&gS<&OYU0OC?zyG%dMe%
zQ~8e9{yhJe_@CnWw}TJ8+<MaskA1dA%hS&PzahDcH`;zU#sqG(|8R`aJ@a^sIN~uT
zhKsM02o}-l_2ylx&Am!<@8`|?QjR2*9NS=8vS)H(rS&KG{Q0Bjl>-;@mwug}2q~8)
z^I;(`UQ@!0MJUdQQzUeQ<VEr^#x9Xh5i*aG>kXYbpVH8sG^MHE*otP<vcKp;HgDpb
zmQVU^!YJNR#?pO*>MZpyMc|TZ9<CHrMu!BvV^nH7EWtHREGkM6GlX)+|4Tk9#sqD<
z3V5%m*3!0PC*dyTHqtbeQhDa+Y>b<a@W+HH;KNsE;>YkRQUpPKfoy+A_J5$(b;9(1
z^Y!K;IY1mKwj-BkSx(8t4vcjoxRKbG+4p4^U{5GS+DcqYL?_`~v$~d#rj8aVfY*J^
zD-)TCq5)uhrBJsVNkxh#j4{aKTy9OZ7R?y5AfxsDiR%+jtbjeaL?FWcrEQ!bypLa}
Okh8ns=(%pyKH$IVG;2Np

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_198114.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_198114.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..89ebca7cf6aefe0bffc26d4c13b819a9e30a2887
GIT binary patch
literal 6322
zcmeGgTWlN0aqoB}j}(tDkrJtgB{_*D+Lm1_P9nud5;(RayOLeoO%o}OuQcx{Ql?1d
z?i5?fUBLhbLIwduAs?cF0AW6g$hCp^ulY=Y0u4|U;DN3!TwOp#^y2~rsMzR7zdC#5
zk!OdFlb}HJkp=E{W@mPGc6N7mX8+7EP6Xxmzy4j~UqOVv!iZ5^b>JRJAhe1Sbp
zU8{*{LdVHD%QQtGo|x6;7+q^MNAlFHA;m=EEUnw)6h~dAuGKlG?VOcIvtCojI>^}`
z(Qbc4JN<}ul6P<pj)=QB=VfZz*_dJ5Wi;JJBEGGmi))dHxbEWdPiT%q6DME(IeX^F
zDa};_4^N&vd}JbKR@DZq7WnQJ;lGL`Fk!9Ck_ObQIpSKKu6Q5ANj5lrCQhm;%YbAg
zdzS!d@cU)I?8Yq|xde*^FleH*o1|c!A1WLnd#=?rRsx(w2}%xwg`*m>J4{kqYy{ae
zLr6w9)M`syw>C!UlspD2jNWdvA4YH90)0cWSEiP%pubPH;u_CL4#~C#9FXk>tb|Q^
zwXzW*hs`#c^%)~K>u=Y)VSz5ti>~YCFvbVHoCd6PKSmc)?l$Y9^qBblO??bV?vQ&7
z+bF#z-hjc;tbw-|uX#h;ZE~l)4Qr-!%E3Ame2k2qhh+4Dj6S(bpC40~)VGA8pxmo;
ze6UWz4wTz49oEWa*g+29St|X|JGj&a(12;&j;78ABwOTueT@fNt&VJ&4H=xxdbX<x
z8;~(~!)63pL=oEw0dMZR`1H*foJ-VjG98Z)nw66l=lO_RBc+t)oEI`PLUfKzavGJ&
zL^;hC6{6`GUbDsll{D)TFJwf`u47M+Xx18)lroxqE_x|Bw=kz!_)GJeRg^LUuTfaI
z=HyfS9G{k0X)&^0qYtrX__tDgTC+|jIrgOH(JOW$Gjrt9{246a<btFzq9i0ao}B}p
z%=rh=#Dl2#Aj)Z8Q{R-xv**9jlK4i8sJZIBG7A#)Fk^`aFiyZuPrzqQbHo+|_Iy-|
zB{Uj?2_B5*#E@8<qw9Ps6T85sSuwf9Yqm^0F0!0v7Z>JOY$pd;jZI}{k}=H^jm0#&
z#t!y(>a6<gVQt>lTn!v%q}ileCnn8bWScS^nH0y0v1p3d93Z|fnby0)v|t&N>1aya
z4yyM*w*2Q;doN~$3*vk<#_vr;V;7=QB9k7D&cIUc6@}PdiJzO_3)tRxDk>&ej*n$H
zeuSM*B=^iOvOr*A38hS$#qI3AvC)0|_5(%hW8)V&_5v@Y`4nsJ%Zd_69}%7d{jj4J
z{{fpei|+40zV=mSg(*fW-u~>dJ09P%l2?kSDxSXV_$JUgS2~NK(lIqWT=DJ69$yb^
zD}~j-&b3o&V9$*)wf$grVw3SKPvxfyZxwe}n8EDP4Yx1*${la85dV+?kxtk0P=2T|
zQF!6H|Ff>ET{oTkvoCK3!o`8&*;|2~IeNntEHbL=sdaZpu~&8P*s>7J;D&)%NoKHW
zL!MwkQQc2&*)7adRSR;o-*+LmclovaYlT;f(`s<A!VKMJcB#y+>xVu&e)V{Tc`ipn
zKc=G`8d6<DAiNxosO|`sz7wR^F%Z8K%M0FjB7Z=iZr|ELHT+z~H=46;hPpm>UU8Pj
z*5Z}WGdbo?pkwvu%F*IjNm0A^R|3!E9P4gh;aEPCv#k5W#bc`fshoYY&h>0*QtjSX
z35)<2-IiM{j^ux%(!Ib+dkSMJ-IKF#1P1bs>eDE=t2&At{=$Sx_pdwsg|n)205o-M
z-*9@jtfa#SI$D{k6EWVxV16=t<PK$fZ~Wcy+?m2?{#^0Zk6*v?dMWm4;*-Sf9b@W_
zu}bgrf29uGgO!GpbRHiW7W)OezUyJT`sx7Q$FQB@(7*{=kmiA86L@JsNXNkQHVVEK
z^mybJY@1aiquF}I(cl1}8HdP3OL{Z<uqjsAD%;|uVwbR7y~y@3)DU?PG6{a0m^Euq
z=Xqd^R`kXgkLYhPJozK&ji^K>A2WVydUO2N^yc`M$H;F@Z^~~?Z_20Oc5Agt4GxH!
z>M^JJHWRRWxU1i5cx57F(<etP8ik#$?nN|P&8bIdVGQ_$=kf0V{vE_W+*h;K{WtdA
zY#R0$H3K(~NCVCAk;1c>vAvbAItr9=_{6`!FN>;f)Y-q9UP+fuRXPUOIzQ{V+H)g%
ztuHs4J+kid6-LW#J=w#X)Dxw{Div9$eQ?Uw>F_%324LBpcNgBOVD!7d;oEdSoWzo^
zLO%gAz6EnHGkK;Et<WJDs5R{GUJrJ!zOnK~$@k&8e-HSqHenQI6oao(Ae5;cuz$j)
zhHQyYAkbC_2$@NaQY@TRp-h2JJ)~~*27t4{p{a$oC~gjyTLiA0{W^WEet1k$TLkdN
zVT@CzKo&3GLq(TZKgi!jV%+kB<h4o;u)DB)A9*sxIX<$QwEW4Mjn&lG`}<nch6C)M
zY>JK8>K)?;*_6QP^-nhaAKMgs9=0jx{D@MlNu=0h>nx<44;SOz1|AJ|A#@g2La{4!
z^I<`zxi&pip*dH*X6m)OUVCtD_*eo#j~c}$+wt}I!7!w^wlgT=Jt4dZ_+9L!g_kg-
z|M0!6U&I;}Ti~K_3EQDXvvK^}$rvB83OLm@UAcHPi1YM>2x7emrL{@CD6z39<Y@cM
z$cPzv+KlWs$<xJSp~58mBD7|Oq!ThRJ7lF?G7aet{OVaMmloWZ6B`oRA$1W2e04`0
znp403^#n~gjL8fRMC*AQgafo57;woseHhKz&>0e8ffpB2lBiiO@Qa$GNx=_DM)1&I
ziylHcwN(gl4wwb_#4lkHA%vijzdd_=!{g14Zv=wb$qkPWAg@1r?7kO;w|&f9VM@`p
z-p|8o<j@z>UrgSdI(K`DQ>VD{oOm-NZFcsozO(X9>G%!$^WiT;<tI+xoMvxNQg
z<@vX7c3#{Z*zsxiC*5napAUU8Sss3nJaBQdJ+yjY<v_`~Hhv>f?tAf%3x87npp@T?
z-E8MJ!rQlku8{M7|Nmc+(y1%GKOSYGSGN6llrb!`HAOt{w`Gr4Um_7~qE|M$p1j?)
zQ|;P$t7~`OowMYoHtFu-u~Jg)`Pq#~`QS-)<QL`BZ<No*)zdTOq)-+wsmaAE<U7O>
z5~`!*DRK*Ar^)*WInIz9o&BYt+BulB7cB3)st(jWT=gPXd-jALJw_PeG(J(b+CzZm
zsnvT@@Tjx^slG-VkbvVg%`%&m;7uiy7A45{gn9`7OFk`T1kD1cSwFJ^J}_Ea?d-8L
z@aAz9>BH3y8hvms!!4xv7lZ`x;p9U6E&Qq$f*`&^uD>DX@2F>ku)o*!Zda9jkvLf0
zhP?h|IWJfHFxHRSgR8q&c7Htp*gXp(T{W&lWH(`3_XKoK3&0zUfB9_wY}E=dB=Mo%
zRe43O+A&5WpiSf_st$}fk+;3th9MWSIqxw5-5Vzm!F=tSCW!W}mn_ILSaA=%+on(B
EzbkfCPXGV_

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_23614.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_23614.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9adefc573a01290502a0b34b7e41188fc0d03849
GIT binary patch
literal 6201
zcmeGgTWlN0aqmUmkw=jtMZGA?Qj^N2BU!PW1dS~uj$_%f<40|`HKaN{(A=X$i6Z5@
zQ*7BsfB^!8OoB>8KSUP+!T<&0)G6vuf4V@51n7?ra%<x10s>+baKGrt`RP|@k35oc
zsJICVG#^>uc4u~GXJ=<`XJ_^=9*+w_`DgC;)3ZT@z95KQJXK(Wrx02}7-1@bCMzv9
zNm)2O$4s&mlBpR>jy<%}Vp?Wr#LayK!%Xx37>n7r*c;UWlTHB%2)i*SqZwZlDUL1r
zom=$tTlCYi02&D~5esi|ldjr2U2maDH;rU>O(SuU3X2bjDkn|h;PF$hz9yX=J8g;;
z@X(1<hsKUa8&!1zD+Av~4C)o6fgvkphPI)4i>Vt`dfN8{PP)d~+Q7-yW!Vs>bnlJo
zTxov;ufyi3w>r{&R{*Wa4m9xdbv_%?19}VL$MhB0e1KsdOxI>>YZ%?+=g_@VlukAK
zJ!V?$8S3pPOigZ3Yqk3^YwPMp>2}PeJG6jJ)7xy?A@us65lVM9=+kWVl<w2nD;z>(
zO?s=&)!<IuQG@-u(}r#N>8>Y8ra>}qj{?a;4er!kHe8d|-5{-*)w}ifnk_;NylwW%
z>#g3dhsfU4WcTPny@$-GH|pGMWcTKgwwCFj-cgb8gqa^74@#vw^iaC}z0X(#T6A1-
zLr<_lN_$;z8`2rDoZFroEGO1rzwW8QLE9b_T0~*TNrn9I56D>xQznPC#d+Ce;>p;Q
zEjKKhw3aYk^Ga$;iOflHY&s%JBsnFUY$6rGrgJWGIX<^AXL46$C8a9l9GfmVA<xN4
zP0|)kE(Uy>$yEk1^5uDxQ?-;LhqsyhLFue~F(D^S?nE3*r%bQaNXJuCW0&X8f>h?z
zf@XSDO^IV!nggEHh0W;nW>npbV$;_!HX*Chg|GEYf2~I~#p<Zkf(9cRvFS}1R*271
zh&wTb=z=0$h-lGilPBP`4CZm9Vlh<$GpX`Li7b>)N*5BT=&Wiok!aKuz<g37H5HEn
z%fg&Q%tOUZ>J8HYz0hMilkz1AxWH=B2&`Zm%+>cz<=;OazLZjC)%i$N9-fXwXCvBl
zDmfIHf(;o~mFTc0&&>}5HXKVt)M*LJ(G-?Pr1|Oi?)gOt2ojiEOC=@JFOBSdVb60w
zFt<ywOIVtfm86`I8iz`%2Es>_XF)UKF4RxqhsvNw1E@8y;>mjoku_gm=IA}2zmAO)
zOvnp`{=)e+->%Hz`+z(1&H`V2(dZmp^9^N=5EfV7RX9?N8$H7}`;DHxw*({f%I!UC
zzOl?W8NuiI!eF8I`obTteth-r@R%_?cE@)(^Xk3U_T`1&^elTaM@zmy=E!}IfB7fB
zma^16k9X-@?p#T1T|Qd$7;Qs_I8<uuvA~B6<=MU77OWr~?b%&+pkSziIvLOI4TfuR
zWvNFZ^0%#Y<U2}Ys1RS>wa@6?XNdbsy#p1P$l1T%yS<8mp#2*R>vv@xk6b7aT-lZ1
zRrp15V$DCCb>0I>1NnhMSMi+DHMr&<%5o)tu)yV?DN?^X_|f4H4_|-b<`LtW{cBH;
z8hxXNe>BUK{9T2y{P5SvKy#MbLOG$_k6N~spGNMMWoK>(tid|o9)EMZ#JjWc!l2PI
zVDJN_mUasSWrZE<Eo~KqqlF!?XhHl+;5f$yY$j5O&r=}cK??CZN(WTY##@2Vt(&_9
z+rENyW(GPQFPQ3rt}SRZp{1Q^hwjjwF*?m_M4nZ2-WrE=N~gicQ8VC?A20Q2U<-OJ
z2H1km*j^v#jVr58gxT4hu<+I`MsxP)B!y|6eu9S0>2(d8)9V^CPmtf7UYFmTUYF16
z9A+`|iQ|U9vV015?JNpAD|dxL?DN37HHg!DKsGAOHhRG%c(F?nWnML11hjmE8fL+L
zO-JTs%So7yihDKLB#zI8g=W84gGlP2NsXKA6x;!-0Q1$HpE3-X8EEE<UIGgF)W1TN
zL1iBjy-P3VUR*w%8!ZGr=(^Tb+;gobb20NuN%UkdW?#r0y2n0MJY=xp67MVVo)X^y
z=LLWzF()pce%HGN80!0A-?e?$TYvj<maDM7=e<e6=(~Kc!S@y}uJQffjJcOwIoI-@
zcVWt=pg&X!_LuyDQlRat9|t%`c_*wTb4=L-D~rNcD-b4B4&uMykU$nfr6I^nQ<zE9
zm`yVf^sx;=L^af{jRpWa;E-8?osMFZRwK=jt$wUv=O_G)>S1h<+T{2^uxuUP7~3GR
zNw{W7tRDRTMq-TlPV$-s*hE9-+sM;dEWFP(X!(ORYyXF}-{01n4l6zS!KPrvX72;v
z$)=Q*X8vH)|E*2I=aI9IUGKALE{-5*;b!djpV}FKM6wD)O8pE%=fOWffWvEEn?>ib
z+X`)XELK}jwQZ@kUeek=7Or6)S11r9jRNJpAxIA$a5ei*DtiG}o+H)sP(3(6D)PEw
zUDqZXUBHnrUCGTHSbifOmBXBM>q7oUk}62DTB`ubMj#7;)WZt(Ou<T5B*<Uj5_fB|
zs!7p^DocABk&#AZZzJ-Ya){_LMyfVak@!(L3{{vnImiPcU2;Nhh~r5}5~12VV&#fB
zX*#XUaqoyiUO9jUd5fx$OFb-@E-TTJ)c6(I<VmI_L9hY2A7oh-eF<72K!{<@XS!<2
zt1zXkE+jO_!e-?~Q>as#1Q?wbwON!g0m{t6r+yCm3sDA-{DI7|b+0co4tYf8#JaZ?
zAfG>T^pOvB^?u;F<|#(5Z@blHgb&`HynW)%#INp7U}FNW&Z&1gwfh}CD_8SZi^p#A
zw}w9NTz%@yok{8L<diWvwL1UCosLWQ`v*P>eHgkvb8F}A6RSg;$^Dn^2Rc{w=l2&~
z*T-*8uWo<&(}mB{e@d^u9=#L5>s>#37!*5QkNW=qiWE;@+xGoYCUUL!`=g9)nTHe9
zKEES#tbBk*@Dm+b?|%Aj_b#J**WbDab1hjWJ8_>66^@e3_}QD`)zMSN$WK?#{Bret
z%s4Z(8dp};%SL>$3@H~iMniL$K21L)*cti}Lc&>ky`!%fG&*)<oy*KSVp%|;Ard49
zGAFIT61>F$_^}^kpbC4G*Pt;Sm1hCdTWNPE;2CHEGJlh|A%&bClbMNY@EVdzsv0;F
zr5f`8OirpPg}g3l)*)8N;W6Enb0|%v68K|eO<jrV`O&!)UP#C<DH!<33zhl@sLBjQ
zQC}eO@5u8H)U!@G-|l|1yG%b%Im*4r=U>uudU-p+`befdm>>MIAFvGu(PD+`GKJbZ
zOP!&Io?gmZY6&bQa)~kn@VeW#G@2VNa{xmM+#XsvpFdxA5{ySK?@~{$rz{Z6g?xds
kn?NE8v~LhO8z(75dA<}UDJt;r0E4_c)>?MH>9&^hAMaZvaR2}S

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_269764.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_269764.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dc7ab680764bb941df8648644815c6634ad8b3b7
GIT binary patch
literal 6232
zcmeGgTWs6b_3|N!qC~yr_p@yh%Z-!8c{FLgE=ZF!&hl8|cCFo{gd$S599eQnx`|zK
zP=NxK)&iE-4=X@{su+f*OMvFHpB*q@1@<GtMk8<;V4(iVzT_tR+1JjcL`g}NrY#1n
zAH4wYJ?EasJv^89+;jMMj$;wDKZt*x@wXxLHAbxFt^xN*0-;qTAc07tsp?2f5hhN~
zQByR5L}J#|V~JKrffVUkOG^_;pjywzX@P!+zER_xatJmN&H9=IYoK6%#JuAX^UNdW
zNzo}d1tRVi*mvkDw*H2$chHoJM53#1i+hoXxbNci&lt`lr_R3cYkuO`Im2BAkDfkz
z^w_Cbv#B;<rQo^u67;J`0T))=ENMZFQ6O&A=$h{_oMfHT-^58bbXky!RNoRHb^bsT
zzun?$i~^y0Z`5qlf@(nZU}=F|f{g_jC|XFMw6Nl|WCXgdyRAugiw{BdP7{hHhFX0R
zH*NK`+ZC_H3O0qT`J?FKS71Yj>Qm_@@UH4tZFt01svWAm4hL0-1#6v6cD3>mp>{U=
zXx4A7+!(*x?z#uMz%Hg{m(yAw>|!lg>wb(aq}ttVi`LV`A86QPL28@YWBEqwZQ>1C
z9E}lpd+|Qjt?g6W)jn*Q)~<$YQ1~%AdLGiz4?6nQF7y4knx_6G429KRt?m6X4PT(@
z!gSaxx8(;lsB#vp4K%F@;pgF|QtE)YzhLE(3+%6bp9ES&5&Iblqj&MinYJXC=#fM!
z9w7{ype)Xd5w}4qNrRo2($i9Oj!y^%olHjs!yc8QscF%$#Q{|e+ma}yWy4`&dq)jh
zl}ajU!!Z}VnwVRdGbr)uykV1-v?N9b4dw_xA-<6mQ-<wyLg3FDUUT42rKgWwou9z`
zXBQNMlNBi;i2NMzq%S>)&OC_952AwMYm!aMB7f;yGc(_skqviED!rh9L^C$?047K{
zJW2Re7|z&&#9xXku^EHG;EV_^VlgCF-_f3q$7NnH+?SH+*kwM&%ZVk?aL5aDJobtc
ze8eZy(}|ctMPo68sj`8$8B-A69`@nQ8V2uT*p(_fmlCh=4QXdODe!VEniLHuD6Z+O
zDuEZ02f^Bb$F=|bcK4OEbXlH{#>Cw-(b(mvGLue?M5o1+vRjs7yA^S6em7vd<H@Kz
z!wX_8Er_H1{7hok{2~to9yU!$r+7Tij~+Pm%z=GCG5Y!V6@kAjN+~hPH_P&}0@_EV
zePA9At+EauWd_~fj{Lz@ZiOpE*L(w+@jG7svX;{d=hnRanG<(_*1pnS=qQfsog-`h
zU73@coOgLLH<^E<uyc*ukvU!t^%Xny(D3zhdT7_JLway5b85rm&%AiY7tY5&;6Nqo
zULMK~<xl0GzZv+f>(j1vc3<X&%}{4yuyEn4&~TR7aEA+=?%r1Rv=w@F&-N{f;C5_S
zh>hfSRP4wb&TG2osVxV^ZL3ho>A&wr9^djSxmWTp7hcuF+t#@4x4DSUMQ%Rv+3=^s
zYux@U336OpsbffY4}tPhXGHfzu=ZilUc*5Ba8)0R0wMEt`>!9=JNK^n_hs#y9bF%>
z*Vy8r>+!XY{aNl#sBQK5%JIUXqNaE6TMO;aI?En^ems}XQsqErVO$Sv%Q`k|TnCD$
z_3k}up;6#sT-n9KXzq79(+jMOH-AWHda{mkXfWrj>_OqDD+iD>kUym}17$Xlzo4^&
zV5#$o4c3<*)7kzl8|fSXLv7rB7TFx{o_PC2b|QZ;_j+NX_{_D7>-5uQn!N`*izFOg
zr7-Srz>?abGwhP6EJ&#sgt~ged}ab*z_+l9RALqfs)t(R;(r9aaoyWBn`%?-aZ+<A
zSg+YsM<<MM)e|ZS!IGG5wxGuIz#6US^)((LPg&Q-Bk1)sKqViuertMT{nqrx`qX3e
zx28Arx28Ar(<;?+m+BmXO`vYtZ`7`1^BQtguOSJa`@80agm>pIj;j&6ImV_SSYC-r
z^RmHW&<q)JgfeIxOU=+>*sHNS!nFFzOkIYp7N&8C=0T4^Ps0TxGq9W$7p1*`7{OKn
z>IhI?ghwtxmq8T|YVTQ{U70QVKbR}N{K?eEQ@4meUd$fM94ov1`GX}_Pv+<*{bcc|
zPDjd&ugq{|rX5Zj0L$*2JAdvy@Am-PZ!>*5(^q(7jTr>_@4#HkY>v(Ec@LIp2?n~$
z;f~c;S6(edKX|Pi2$qAPe{T!g?3E#8b4mN*rDE{Z8>9@?Gx#s~?xBJqG)QPQ0@7Gg
zpfyUcX>?NpQcEuC(f|l{I9Jtl6UCcTSiHRtHNkO{xlub`O<G%|+SYlE(@I^(EZ)I~
znyImN*1wO&IQ66SwMy7=M4^6&K9v@nAKIF%{MnoJ-8A?6hkDbF6W^bGik;Z%-@=db
zDS^w_pMCm2_9?_X>{EgLkk)Joq}f&5ER=x{H|t*t6!K3abOClkb7)MX*jE|BWo9#s
z;I55aZS>SeFCMKJOCXS_QtYZ@3@Go9K*?#JKoQ>==^)_Jv$#71-QB~u!~bW@d)lC5
z3qmwPN)DJY?1K1aA|^&`=B*0_AFkD)cJtQ&T!la}0>w@>+jCZ{8z_w;wBb@jS>a<*
zsL%E^Bcsj8-ezQ<bOPHkjyp4%#3`h761oUu*r2?GD$D`(r;tcNVG3QX9u-oO2XkWA
z!aNi)vUCJXIStlK3e2KRI*iF27{}LYHOLVdGg}Z6bLKJzTelfXUP+V}l8S6lm&HZH
z*`VOxJXS_AP)#X1OlqsV;x%B#caQufY%Amy3<?A@CpWyl%!!RqICFZ#>j%ge$c*3j
zq0YXKxNBT7dcF7aPCatui>WV8uTQ>yds5IRh0>h7-l1$lR`S-$Tg8*Nn9oPP>?l2X
zetn9+JvFUQO_%21TyMX!Ik^3k?vJ~#&wf7i#p%+>gXF<0o57CN=T@F8ve!@Cnkn`F
z>aPob)Bd8BF2>e_!bay4TVZzxdw<~nZ%FanwcekOG0|&%KOJK%&umQ+&j#$7la<3H
zf{*CMjjpF|cMa=Z!(Vmn%z3g@c5;*HE{qowde1LzMM`65_0ivy&c9Z=5ZBL7ml9G*
zzN#k{D^Mg6$4D5Cljq1SjGZU%BjlVQH`)h^VZD7v){&=v@2)se_ejNu+`-HlGoOrb
z(ph|>?A2cahPOKIO2Y4>1t|Ir#)2fA!5P$SLV^D&>6ENM%#dn%{Yzp>PD=&_r`bHS
z5<W17t9thMY542$DKeL<9yDfbE-fr1#pfjv_;B4Q{|UMZMG(Z-$o&t*{S)<U5RP}d
z-tMZ9za(6hKI985t2wpOkFfz146p87+4;>NVD~6Qx~p7=$v(nW_5_!cxnzX`c*Ese
z9?OkYYyd+!-`2f)VdX-_fiVWL-sPTLPsNEb7Wsk|7lz!(&fenyx_5>^1ow@5iXehp
QhbiRUvE~_iyPAdn7q-kkOaK4?

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_335674.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_335674.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f3c121a7cf7b4026026492640ba22e768fb49930
GIT binary patch
literal 6397
zcmeGgTWlN0aqsv#zQnhv_akXzQGUpgohXi-haJh5Y{@URO{FM4(7dBai6Z5@lWi%-
zf(8PFYywC`KS%=s!hA)p4MhE_3lyje6lj3{@Jc5lt|}lP`f<MK*zHF@+Rh$%6zx!P
z8U$!QvcT=m?99&2&hF06++VC#6M}N#+OI?H9)v!}h*}g1AP@cxRR%GLAtGq9+!B+7
zf|GNaNiBg`Vn*dwM?=eytaipy(@_B#P5u6$meIbgy;<R!G%z|A&DiUV*YD78*rA`=
zp`T=pK@($qTRUm0uFmu}nlzJ$HCOepED}ERJ*>uQ*?4U9%xkCU@u73Fr3?;^of#Y&
z4b-Zs2UZPy559mpg9HMP#bt&px3x7x+^o>!_9t+XRZd3@r?ysF85WUfUjneo@2ug+
z+C5f8r`T|_qFdZm!%IEJ2q;5{wkofi(ZoH1S><B1)fpRWq|`YAqHUTG)M03*p$b-k
zTe|8jUcsSu!|X1#e-OR-0HJu3Xcx6hI)p@rsKYH@x!5G?tFT)%sBpZwMz4C7BgE!f
z%gwmdnYY`o*Sl(g7SM~T=w(#r2fa)x9B+MsE~MD{9qH0mGn0FJB`PE~ifyV@<Lx!P
zjVi}>3%u=1aM`Qt>=3<T2VPU$D|#xB=Ls^}9+S}tGFrq=#WL24q|PM_dBpa3<9q+m
z!ig5mm=3#aQ7tICMXL(OyK3fa+SXTvM2*;`oD9%%2~KRiofS1REh_(ZJJYretB|^S
z)oKJ<L_Ym#4qu{s_&!gooJ-oh;b_oD$T~(?oM(MDnG_<jX`YKsbN)Fx%*fhE%nx;d
z3161=e$F4AW@TLvIt5v`#BwoSHYnJEepy$hl0r;2%=xc|=N9H<4SRK7*6~7&V>tuN
zDx25{JI6)^T3GaT%hWM?oV^rbqq1%+%+P0Ko6^vuvFV|!^W#{+nFT?%@&XrTSb7e4
zVizApLyw~TqbMWWYsN-+mcICvp3ql%c-c}J6<ZKsL@gG21Y<btOF4X5Wn*B0qc8e}
zKuD%A7-GS4W(@J{B^oc%axoGM%+gVs4==H@F%}H+tiaQZY~UB>XlyDY7><s_ro#bQ
z;|~O6syqTV!i2fY7JyB<EK>>&E0Xm>d4M6xUZG(;*gN2lfP4^GkyU1f#qiyrY1fm=
zzkb$tCC1J2^Zo$a7xD*Y{X!@f-Rqx*jqBsNK%c<Q&G!M;7mWD%5Y4cG7{m6{^P%v*
z`9&HCG;Ej<i_*BCK5*c<=LZe~Med}7R~UMh<)Unat{qGB0!Z)Yo(J{t8^C`G=QM#H
zK7$;tj5Te|`V021#K?xtu^dmuv*!x7&cyJR)1BFs-j(giO-L>K3eLX7sSTGWGmsw0
z9$qyTT>XjBExR*gOdGS^*{OoPH!-r=;7FX<uzOa5zp{cjlV!Ol)w43X^71X`$1OKn
z?wSrJUfXgvWB$+Fy-BL*>BzN9o_%Xgx5uPsM<mb4C&T&I8EKS}JWPIizJ%ZfJxbn3
zC{%75kCI8#hSj$Gdg}F+pJpc|&#r>CXWhD6vhKch?BkO+P8O^KNpjQGmhbG7TzzXj
z`Ip9|{xQilmOuOR{2Q~<*;&aoo1`{i;oh`2+qwFJ)O?`eIJoW@kQ@WQC;wpjovGk>
zEvd)L?@jk+Csy^a_M~A0)~ZkIR~B;vlDD^D-<{MI8yqV`soA8a=xojorGaV7-IzI^
zKAwF(cS362U2yM78jF-U$*qi}ej!oqz)9Iw4oOs7(ol4_ri`Ud<k?+%3fY^pM<m;>
z)t<E}srRU4J9=j%e|Ab5oRVx)iQx^c{+;1#!^!cL7g86pf!vAfbL;JWQhVQ;=C{V*
z7}xg?O8W;3?L(hxkHf177siV#><BsR#kppv0^mQZ1-}DIl=4?N2N?vuuS(hm7y^&m
zfkt9lTp!o%K-VaAgQyerK{8GWcs8Yolp>XcIE4VejAm-}s_<;bMLW=|(a;X`YAmt?
zU8nkRk$A%V_37L5*QamKuX%#}`t)u2_37L4wW5L1Gum5*o6fTFl-GzVzeXIs>-YWx
z<(~35;Z3-QovBY->sX`U9k2Mgd0sYQQ1KPKPXmrF<ez61ry=Xh9@}TEceWH^vaal$
zjaUYD&V1Q#Yp3CH;f*kB)h}|-0VccZd8k34ya*qkhbn<e4XCL#vzT7YInrWo{G*8v
zCsr?gIF&q<7%I9NGl$ZLvggw;B}R)D$I79+xjiwsp?x|xC~18~%3h?bMam2J4}fJ$
z%Cd6qUE4PRz3WtmM0I2@6{v0)|23F-*_1M^Jo_$8Qx|l$7CqfXr>p34|MSN#ot_(j
zMFrri792h+7x4?Y29ReFambwF1ccTkqm64AU0hoe+SE%S^deaafl;tFtj62?SYZse
zsGF7RRwK1uQh+ZfDQbe+nt-=nLVzV!uJ$*P7}R_#d3Ey3vita7<cV6w_`a@2%O9*+
zJs;o7ntB{k|6o&W#Cm@~zLiahB{-Eo*z`NLDfm2WQ^xeZHm(ap*dpp?Ai;dRsDFLn
z=fZA;reG)H1_)hjDxXL(W+ix`7)zzKR@#P2Ys0PTV+jN!$`rk5I0BUS_ChkNA4fj>
zX%4?~9PZ=}Lv`;}T;V@S%A*Y_;R56Lk>#vT&#;%n0oJEe!Z}F)aH0l@o1+5YGz78{
z$a0iWPd1j*8pw-$TG=eHygkeoeRi}cqb2WpXn+)1p*DO^?KM{X2QA0_J`*@P6#
z0NE%LjzXFWRV6!Rq8zprhyUn6KV&gHhu?FbQ8p>DK{+v_aBx6FlmNLTWNwwD4bU=y
z3C}5W$)>8}kOgxrzYr04Su@Kn%EoO<ow%Y&q1Fp7E`TyY`1ns?Zy~s#kkgeoxoNW}
zhBw`w#Mq|I0g&C97<p(%%^e?DuUm8e)%M%XlJD4^$vb0rCoZf{Fwz8*pX2W~30vN_
z%v<TVawpfQ+j~E0%0GSn?j*fFIW0|2=jSiq^<LTPe&(ar4_jAfZui_7%kO=Z+<j%s
z)s#7$KAbbH4zGpsov-|9;m`3u#`A9m?z))G=BMs^EKR0|UH^YYa_6qMe}9zmU+?(-
zD5F~D{si%&Q=d3ldX+?Qh)!&_{Aj(US8D0~tYuHCA*o4DY*DS*kz816+rQ?^A2}oS
zpUt0tBR>_C&QIsVT%Nxwg%=^+6^S7dn&ad-ob`&tdGaAb#&L4f+m-W3-d#z<isqM=
zk`cA;E!mO9l{l>gl|CzX4&OR``Nx24E4TY1@JDF@Qh%9JAr6OevSubMz#o-Zlo!Bp
zaFrPUCv23Dak2)kv~qDdd|_mB`R>uvu?TYmDbtk$c<RVpj9G}VFLNQ_!+*Z`51=Y(
z2!i+=S^kEse@AVbgyEf*Yb_;mKXHO6bs)QQSxkwgP6h2k@Izrwde4{L7=55Yq@}_b
zB-#mm(QIEnk~&h-0KDmG$xNlEN;-f`dSr7iM^cfJ0b>+0*_PW<Z6zbdOvvtfU<T;H
bD1iv;mzGI_aNU1ZgKWDB4L#S)$^!lizffNf

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_349606.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_349606.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bcb8354929567b99f1cb7633276e0e9b95d90f03
GIT binary patch
literal 6854
zcmeHLO>7&-6`uVgmt6jdB1QdKw(P(bWyy|h#j0aFabi2M<-gi)6IgY;pt(zl5=F|p
ztJsp4EnNf%nFJt(9z>%7!dx1qHc%BkG)EUG&;Y$~Eg>ehE+8N})ICwL(g3-%Z<arz
zRLV}%0?i=<?9O}hX5PGcGxO$~`Lo?_MUb{Se?9zl6GES3rjoca@t7nKnn3~*hzJ@i
z<-{Oi@Z=aZNE1jTMhrcbrlnjUMS8@xwhVIuRlht$3-nv`opOUgvjqv9z=&wXRY!+u
zgL3l*<?IIKq-Y6Q1<PB^ptU+e>sx4$Baz5eZLv)fe%m8###!C+^67I&Pw^LzpVw_A
z^4OVk$Bv&4Hq@AD0-A#F@!#M-gA{OKDUFa7YBd*#J7syi;VCuAYE5@dO?p*Vg;J5)
zpwd$eLQ_ywZPlnYs!m)YkW(;aK!ZJTk3hw}in-EOpsV$pYI<QS^3_~*4G~I}t+xp7
zGIz=&j{9nK)ms*X>Z;alR-6^J0-<^;<;Tz)UxK|YHJa*;oq(}3m9eXC)l{WhRCASX
zR@oZbH41hL)LqjZJa3RjYUi_5gq}Rss@GbdVjl_iS*m@zRcn=QQMn3T(e_{1(N<%J
zyF7%NOl?xzDxQtE*VOgYR4S8Dw;ivTidFGVs#o1K1zO`?)mNr!XSkk@wskr>pk=Gt
zVT{-gntY(MV+vDVwLRYS-d8k&8r~@gMQc_MgsSyPrNF1Qitk{~?Nz#2byR6zJ#VVi
zNb`DqF#oOpURD{s+N>Ju<*vE1S_m|W{Onl?FZM@xHxE@>Ptm>MXvk0KjG#=8i+)n4
z#{%-G&cu{qQSuWK-dBEyPAU=IIxfYAq`(*-7IZoi3kW(Bf=tnwDN%~ay4m3N?bS^I
zDG(hJb*7Y&N=!G81#X1LCdPD1yfLmbvJ#U-oyJ}2Rxu)uiBW}DCjFar_GSK}cr7AE
zb>>W1;Lqt!BjZoUhK}DDzlb%Qn^1J8tVm%&<gfB_skXgbFb0jlmNo3~TK4K%R#?ME
z*0znTZ5z3&+sYlqCKO&?!ws+D1PO0d2}c0k5}c6us{tiAth1OL7QuODu$;#OwOx(G
zf}?ztm%~#c6i<xt*hv;}86Sxag@Za32nKa)EEJM?qpr@Dn!rSm%A2}LDOEE^#p^t@
z0{;dB5%6rO9BY#|gB@F*oW6c-_w|@GDvt+(;_l%<a5SI{$D+M~A())qvJ~8{h-2fs
zf!iI51ms~}5Q8y6+{=#-hj)!n@*v=0Qj}Pf$L0LKz61N8-47CdGatGx@S~y>6(f9Y
zTV7T``(9~37>5JAOu-6Gpp`Dv&^TkCwr2zLt}Tg^51kF^cq*PfKkwX}II-k#rH4{O
znc-Z^EU$GQ(wYv<I}RsaEqL0pVa>B+wo~)$oU>?+2NI_j9Sw<BAG*Am&@b$u$7)M=
zrMfbwGcVkA|EBfh)&*-{;^-3e)iT|Z-II;XH|$IdEO}b8o!QHudAgJAL%TEmdg}Fp
zts!$VXV*Nvnyt6sXv%KV9NU*E!oFj%!Z4(LN700wE!o4Gqifkr+5JTpx!bc5t)aW%
z_O95?4(nGA#Mx6@-@A|=Obx!ftLQ`)ZpDq<o*Cb?uV4fFXM44de$CduaVL){+HL)c
zU8~4~EY1}hYV^)@Pj_c8&6?)jyOZXJF87RS+LW2h^=rQFdDqS)Q(&E$=QOrCX)dr_
zaw26*QcGUn%xlxHWnam?uC@2fdwY{sER!+=sh??VN0P#Ap4Zq-N%NwoEoCY0L*AXm
z{fKj9%&FeQ(TB9@?Gv|7;5OlG4>(3+w->DL%w^5m2|luHU9@^Ks%G7`%#fC6z(*Ea
z+LSUS<@AlzjR(%Hnse(syRBgNL1X*&e{d$o^cdCxl5p6QTJR4CJE;wRL4XX^)Cg1w
z#=xqXK`I)lidG4Mz#8I=O4OB-hSaoylrp4dl@^H6W3W8Q0rYbM0`jW*Dy1^2Ni~P4
z(XMK}`aQxi-inOcXrz3YSCs%!L3IF+fGYzb8Uvv<y2-jWJfX)LyTH;A8E2KMFI5(g
z6F?cEl5kX^kt*0)wX9;7Kw?c&1JtstN-NYVSd0<?jff}L*+5=}ksHXX0B{32Q#}aD
zr}ST6zS@6%`D*{vQ}oxDuj;QaU)4{mW`KNUs7D}`x`_Pd(lIV!5dY|(kRBPQI$lbC
za`nvdGjIwF2jG0A;6yMYtWF8xG2K);zx<YZ`^#vrGv%WSA5(mEVytwC(L-?J%6QVN
z$B6VCaC&3CkbV>-r{R-_0dFKw(ShvV^x4$e>>kawDRI2u^rUa5Zf5tSewsK@Xl$N2
zIDIfHO}_{soAYF@y>mEEHzyAlI7j+G>Oj_;V`qEv&HeYe{yg2E=lTnrD}69^Fe7Kl
zJlB?EayRC>e&6%kp5N`dcR<^F`qOLL-XG?Fd_~)HCBK=!&+&Ph&vSf%Ykk0N(YP(S
z;~$;+@YEbN=gvRVcc1Ia(|viaZxN#W5As}l;@A?sEq6?#{RP%lVC@Cg2f?k-vHgR{
z?Z_{qbHx3QJxMn0OgXc}0^2%w4eF$ADO=|JyUuSw`W~<y5LdI;=GjhA{RECnTT|A|
zo_E25x}>|U;O+c!o0~BeyO7P97?AqG<3aeU3BYM7M*bakJKU3rIK-4V0aq$gpyQOl
z#OWGnjaSmTB$yy37*{nFg=();7}%^!g843cryNykwBnVzE>&Vph_1P`V5qq+85+w`
z@|$Q3QQu0RbzQf>8WvLji9R?bEblWlR(|izs$0L6H%-O~_`OfTi}fBazLif2j3mBa
zr+8uh4}A(T5BpTGzE8)QFp8U0W&|Dz)~5=Ff`_7=2wjGmh?@b2RUea7R^SXI#tOD_
zZZGGKa_+==CB_0GV1<$du;(F=yw?kl5+*<iuCvnfz(2xKS~`fSBlw3OD-GnJ)4>TL
z0Du8QJ>4XTZ-#@SpD{22T-Na=8gAJQWddJA@g)+V07l`urF8v-3#^~kIYpEeJ{XWi
zeorm4x0cyg%k)VD*p5^9XMlXHRKjS%&*}_34ZuCw3~vWQI0}yo@Pju6{FWd@CG0E7
z0Y4~*>!>VYoZ+|VRs*saH)!c4EVkp@b@^fqj|QxPWdQ#e-N4PbVlzBjNTNIuQDmJO
z6(@Des-zCoX*Q(w@Xj01=`Hx=PhnaC@4(%!F)^^{bR|wKdc27<i_Qk1T<*ll6&Gsh
z_`rVKo(s%w`lLnkzkF}--kF6<R~}pvv`a#MOkQYKmVE6qH>Ypr2IkmLdOvN>Z@aKC
z$Uhhy(gug}<8Lnbt}k_N|ETT5w%L(Sy6&CH_pTLpUSBFfs+@K9#N2Rx^NW9+_*483
z@%$UXg+^hqW$Uun)@)tb^8Ys^cmDRK?~XBn+a2E>V=A6mzC=9lHYEm%M@R&V=+(v6
zXCAb6Ypva%wf3YONh*11iEYcC%!Re~XXpI+L+3E|z3`L#<&bt^C?A&c@(nFKSp-N!
z948@rg*;C#W9|aEf{^7Rx#-)H^J=~wNppsJ$5ynUw%(!(*%}jP4Lk{tfUn?9W|z+6
zjb$pm@#xM{zAFMxeG~ACqq7xC!f;BbM#2g_e8r-&0--}H-9St~5~FfV(ka-~#@3ba
zzR|hT7UYLw5#eKG^jf-Fu!qKC!bC)TLBcPV_~lam75s`6K@guK+h36Vuc#fK6iD{%
z)?2Mb@+E>W6}KRlJFTYFVyD4w#m^!=(>-5o!|Y=Uk+yQh3nXf4UgowF&Vr*c9Z5xs
z6wr%sw>XqKRAhh#)lF?Pm!~fm&6s16)tPQjwHGazvm#gHW8C`j6#^0VFKmMZ(YSns
PLe3rYj;>prF^+!$p)#oz

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_369704.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_369704.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..75428ef8e9fa60ae8505784557c0e45e52eea3b5
GIT binary patch
literal 6123
zcmeGgTWlN0agWEx@%@x2k&<HBNhC^E<jAh$#E#=Swk$h-)UuOQs?!6_J5rP=k-j_G
zmU0I$K!Au%3Q=eQ(m;SHUs37+Q9lYeK!CVK(HiIv4|HSVngRr(9~US<#V!i;tFuQQ
zNxM{?1O=LpEO0wByR);iv%9l1_b0pEf}s5F^<PbGYe(oyOlZYkL+()oLOH}BhDe~v
zDkLTemDbIYlX?QN#I!0$8(M{oj@3`w9&E!DL$+>@>KXl;`s=j;lO{7VBgV!USTyZw
zA;q{wyJ?GdYKwL=YX(itQ5$1<(=chNuhaS_nzZT=YprW!TOdOAyI7Ueiuv%#GcUeG
zpF4V1u~pF{r_LNXdNSf@Qq=@F3E#ae)Hx)8A**Ftr(q4q5Z7z{lH(Dax;m$`iBsQ@
zrC}lx9g9HJ`CXz*wBZ&;w+LGXIA|id8B+2HSX;F)dX3+TByZCUl*ZA3qCG|kb+Xkl
z_{ea*wpz*8B&*fIAVhnew@q+rVi`hoYwbtSYcgouE)t?s)Grzk!mAP6MME8L6O9@!
z`I}~JWgow`QmI4Kfkcxw5+qU@E_FUaN@rb4K=ew%ChisoR}6{)Z8eft^fYmMv=uiX
zaC`AiX)|D*9x(!RcwhtwlRRRx?Z4(cV#ha}skR%E@13F^i9XT881e2bT0w&@kp%mi
zHJgfUqD8}{?xuNsjkRl-*e!NV`!%Wo#qQ~j2Bl%s0S#+F&3c;M3ABJhrqdign0N85
zi)p+H8J~-W2*tn%3n@1C^S}RQ^`C!OKNxZ-Iw7H0Qd}~|g=gtFqv#XKFryfv00hOb
z$Z|<uF{#w<5ycqh!gDcJF;szRHheWcJ3p(C?A4TF;Dsc|D*8y67dU*U6bqYRXW2P{
z78XK13U!!1$6iXXbBf_qoT1MsP8HB6ld+>$Q|GXlGxLIChtY9{rDuUBIrSiU@j;SN
z+|A5%f@i1xv+1H@u5p35I?5;((C7RQ$IsKpk8s$Xarh=F=EyupUknS8DTTu56bt4s
z@$4lUYi_%kNJeJpIhv0zvd}y~OXH=R!4PyJ8H-00G8~C0#$+_g(~Lq@*}<&Fl)%x#
zWia<;FgM1l?8X|Tu!I!HURI18%g-kS#e}(%^8()kYHj<k<zKH1UrBN^d@3Aaho{1k
znXoXGoEr+q!1lvD7a11V+0-yl!_h>TpQ0Hyl4RHsIyDu4Dz!jE2MsnCl5;d}r+4pt
z_L*IKphtO(j$UEt8J3%46Lj-fnioL&2)7$_!w#1J6pmXO-QSMf-kg2Ko(~sY+tSCs
zaJrYJjFdlHbUv0I+i<v+W0_cXYPC~tA1FEo)5prbU_LJU`qp}7-{87g_CA|FS$4S7
z$G&j4XXk&>m9>Kqi*30-)1N(=J@}F5<G_c3+m=1)7dPzA<%!Hh_ELUl(cYIH-SBnh
zd-E4Q_YEvjWt+R?^yi0UXWu4C*h6KFFzD=|iV->6vXbn0eA7hQpQw<??7Z(lpxdjN
zSF^9YO)u%nwqVK8Ug#W<9RpavV7X3#gh4#Sd*6aQzMOx>pAQt>k1rX^-mWF;3txNg
z#L9{M)wTAbZ`YE!<mr6(@Oz`zMpyT(#pNB(6ub7xo_(K=e75(Ky*Hn{^{jmOd~yHF
zvghR`Q_11}<>B1u%4mMyYFrKu!+6=TYklNX-Dk#6j5jXdGRrTVE$$nacaO`C@eEn%
zLv4eV0pxIJkL8(_)3SX>dK65T9m_AszJA%!zqWV%xIFm0?06o`sW-kg_Qu%KtJ!F7
zW@Toz?}MTDhwf~DPTu}pv3>ua^#|_3CL#`kCB$Ku#9<G_b>gZQs)!LPtzb8+KL0<4
zJ<lPLnAUol;0552jFL&BMAWLEA+T`CESg1QR3}*kEKx0@1^2)cPr%bff^=}d50^$z
zu|<D9l-Q!5)Lf^idxZSf{SEo#BgVJxZ;aQA29aX)3<&{6?O9dbxUuTSIc)j6szb-_
zDWq?9Rde8eu7tT1uUIgu-bp@0f+wB|r&#rJD#ohs3t6|^Tveh%VMj-U7{!8}o$9#w
zs!Oz}?y&0etTjgw10T)91K8}DxDlWgZ!14>2zv0x{~D?^s<_a=@W;UqgR=g~^w`pL
zerL(und@2UStVrm_VkIew>y8e;OS4lw4vWoqP&}=&R~R#Yj&3?dx`RwC@Ub#wu~)%
z_HE}@sQ(VtBU3&3OGT;|20cJomn|7f_UX4lS`+Fid4i?3-jc^#^7{Vqgcm05M+Pgm
z2egjBS1)+w>K*tSoKDCh2nj+@iGYAp$LJ-JF-ZER#~*LsLxnNI=~e?h5k;FrO}xtw
z6~^=tb-i{Anxr=0$=V3*)<pG9!E1}~R+U)0abHJbl>AomAi#ULs2Y;rM4qT;%<meS
zwEW(hb)$YOYpTKP_cp~wY?au3E1MEH;r!mF|6`ki&%-ulEbr<iLmc7>(J-z3zp38=
zNFr-EB+-KiU4WgyaYrN3hWFK~#uOA|t3i7WI%?2~q2^-=1S6_FM$vQtdfpj=#LsvR
zg<Pk(y+Cu%Ky?>8(7T6lg&%J9rH1Tho(YF^)%?fEu$SWzHe^uWUd5!QG?3!BYY0vm
zAbo%=LJhSPb2VLn_cx?htOCmmG$d0j{d6-i(oF1bCiZa0upVQ$QX@IMDDF5^Axbeo
zat1k#2{Jb(J_o5CRFKi(Opcl3@b4WCn-<z3S>U-tc$Aqth}*FRAo0?o0yRjeh6_x5
zR+X<<>dHd4SWRGfg`8m*6mz4;407suOf^{OP<vZN3=_bdf{(ui`w0;Pg*;ve44kg?
zSlQQ>K2>(Q0dslM$M3sPXU}`~YxdRfTKA1kIdu5u<jqsJCw_Wof{`bf!YqHgL)h?l
z<z8QTef7jTbz|sOM`6eK?MeF1WK5on6;hXP`>$;DKKViL{ova4jsBab3PTTe_g>lX
zcI5W2>|eF4jjc}=9(&>U^M90nD-~Xg-1ai%&h49RwhqhvZU28oR?lAR{_ZFfzSi^I
zQAV@O<^=Ja$Cy4*Iiy2yh>n#5kKYLl$bo^+13NR0C30zEg9_%4Ll)MxYdusra7G^a
zQDOWig$q%6JXVNv1^%iWU#LKiLLAir7}cHCZDML%cON11IbGSmZM9AI_br*S<j-ss
zGYSqtz-#lSPpg3>cn3Jrh<g#LkexdXKrvRsYQ<TFPbJ_t%RFS*3Z-EjzC8*#9T(si
zMRJZ8z;ST35dS<o$0s@bk4I21E{89VVy)goI+jc@A0l<?>ZPL&%qE%n1bdK+03ZHO
z#D5G`g(L{#OJw^Cvi}uzLA0%--U_@CsOWw`JYNYQmuFebh?O9wx{$Xmw{vCZSKUC}
zBazNl<ys_=zoXRV-?aA<){?`!oX8|9B;aMMYxzLtK*az!NNx}2F05Rrm@q{li*vav
t(^WBJ%7Wa!iWOrv<nrFba_*fc5MlqyHc1fP%|j$|_7xrdZ&ZWwe*;SIBbxvK

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_38100.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_38100.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c52e884f3f6f500a7e1253f9c846f4fed595d0ce
GIT binary patch
literal 6201
zcmeGgTWlN0aqmUmkw=jtMZGA?Qj*H1Em?jfL2L_&<5;%r_)*(!4XI8KH1{Y`qDcAf
zWLx$TV1NLj8lw`?579+{FhGGgwTt@GpDvIh0s5nZ+?u$$fPnbN{h}l1r(c~t@<_^|
z;wC82d}M*!o!Ob4ot?d%o!P&7JT3&~h3p?Drh*84Nf5huD!>{~A+&@r!c+o{m0N0z
zvT%Bu8Dl9VQ<Ih)duX}Ew9HP5>-z|Xna2Gw7PIfMw<-h1oB|RMc4JOPlfDL092@jI
zH|Xa#=%-}?G!kMW7T)8=T-9~D-a}(<8p-aeM&cY579SH;PMX5O<EP$wTRJ;@+7!#+
zp%bSL4IhuztLg++2EMfz)JsSMLzc@VZ9}ydQ@1MgwC_2bbd|HYj+3p)vLQ_A-dmNq
z(*8PLhs{xIb)@^Q0$P<FsN?5rd^V&9^d`cO>8r5$0K+_(uFlp{H@d;kp?k+Eooe)Z
zOg7mw)Y{ujRc=sgw)-(_>*_}7R?MZ_w17?1TWs1P^v+)pO1IbP(`faS?$g<;971GG
zdb7?|;db3oh5fqIhHd%jj^{|GK{9WT0?9%ZZr5ElT$R>YC#{jyJN4G8Ekbp?E%wT5
zt=_7K$lg?Ccj-aBi_ECk>)dE$=lYShmg%70R+jLbnV%gGN~PQMP`dT{=PUv(+OE2x
zCs-$?wWhZX=?qxTZO;vs6RWUa_f+AaZ4U~~p|InmLVozi<Sd0Llf&BFjBGOTWNh4)
z8x~DkOPH=1B{i-@rlmMG9T6px9G6Wtk&0l`IUTtYpPrpIxvR30QWbKJO_!XIr{$z3
zX>%qQ13t~<%7YmB%8bdWT1t__n@s+obXLBYkdr2NB95g~rq^nu<EioCD>G+7DsyU9
zGd-%N#IY<*15fJ0dURqvs;)<|>8l%?kX7lzH+m+%(W9DTWmIZbgAw)E#5xQs#AhkQ
zotQ#&R*^15wCIG%6L3NX^Egtmm@0vpRQaMr7Ro233yD;8N;R2CG-?W9J}HqJk4J%J
zc3L9lq2eZW$#g(3^q9`1d|3i6uv#<%E7$~c^?Y0T_s<6}r<5smCK8ngCnC|Qh&GW*
z4n)RbLk3kPI;hFhGlPH)#u5>ALc(%1h2`DS%tU<0%$x)S3Cyjfk`n2c_Pn-h=T0D)
zo2A%gEKSKuQcg(qLnT!M;k%Wcpc!!&>SypnWzf?;)Erpy<UIMvimxYg^r6pR!$t@u
z<b-^0{``t>Tjua1z@0f~o-gb*+WS|01DPX)#g%jAj}+oY*WjIAqifGy!3e#1Z`X=%
zI5R><@Hsx;pYOgo`=@K4UVAV&Yzz+H_Z`l>^{}~harU=ei=NEUqA!p+^2p;~eC;<<
zmU`&%E}WY`R}`BUj}|;e%YY#c6kED1@CieCcC5Ap%Lqq%c9a|_7%HPq#<OFM;hJ1o
z>ZyqQElX{=wxSry$CtP5GrIQ~;=W>cUl}HH_OEttu3#W&{~E*kU0KId7YYQIw&k|v
ze^D4+@egL54?$92t}owFIA?V9ulNVDT+tuQbGhvW>h}jfIsEbAo3GwEVr<{P^3sse
zGi3OOvP{w6ksr<teuE4&XR#$TFO+&w)27l($lbK)oF4#du#Wdf-W@6O?rc2YZ#4B8
zd|$Dt)dE3TVasY$OBvy4VGAr;5Wf~U&anoYi4@}V6o`0`Li~=>2355FRv>ii<}Sjv
zFCm?ogpOwmraGW&0~$?eX=mD@J9KA^PV*X(XBC~d#vz^3Y4CB>BzWX!OD!7MfL@IO
zHlQ=M*9Ut2$|@6Kc4{juym^DsoIN^8VOpo3qhVuuO~c0Ynug4C<Ts|*<Ts|*<g+@5
zS<Kva-13)~Pr<I8MPX<8u26`59$U8tae9x*MupjWFPH=`b~&QVsHTg6mTyqQEV!?U
z$c$_`3DZ$_uO^$s@#(P8=ohOKNgXt)5tAK<J3tj+zN+(61_3hzjeODTKp~&{H>fhG
z<U^u&VekCj#nbac`M^gVH#!QtZggcXX5K7{p6tc!tC>R&*%u3k3^rWkeMR0=<lEr9
z0I(p=i;Jf}@NNKxdOq5BW8cl@-@TFL%B<JDcPJSBfbTZ=?)=3SzW3WP_kwHQwYcj8
zn6e@04;6#GMSq|eX!-gl0nSm{3Tw$6Q+C11qVQD<gbC$?_%AplkcCib2r|<YX3{if
z(+mWCY+Vph33aQZ0l*G8WL99OqZp-CNt0x&pDEaRo4-{#jCE2Q93Kdlt-~8*>m)V^
z*DQ&Zga6-1j4|I!UZVh;XvlmQc{+=Q54k!mf3#-x|FHJ^yIRv>rAI&76s*|jec*f9
zl(N#yA8q=-wJG>Ka`v(7LpIID5d<yVr2YO=Jp+(PR$xe}w<B~O`~w6yyymr8bRN5{
z(1yoirS(+Wrb_E2t?gss8s>4C0zuLcP_7R^dgy?w*>_Ue1Gw@ssa}EV@c~ki*A?r!
zHrePbj)duQZsx%9rFc{hbJnd3`5Q^9AjxX303;iMECf;yE7UUuD_xNwe}PNft;wn;
zMI)*#?W#w1*CTuCk(ZT2M2}%owUCO$kIG@F!o0~r9ti1@6LLcwPePIi)t=o}u85PS
z)5;w8>{iGt2hbpIQ5ABjhXvDRC0ddizbczN$+RR0HX!$dEUT<9LCXXPF|7GaS5<ix
zrj*s$ga%pIlssn&HA;g3quru5iZVt)nJM_xFJONm%HWYdkU6&M^<_pNkI0-@^)>_K
z^Jk7e^`VaLk32U#g~-iKcRP&m!Fyx(PTU{;)q_!NjN;{K^?tkdsI6=1TJBom*d6}v
zz!&YyFP^zSCOsG%H^#=7XD;1uyZorP?~~BSp_`L;x86IkJg}bJd-+kIeQAGgf5CNg
z<j%zM<~Kf@{XG5W^zu8=`vJV#@xqg!*zS7T^Z!?*aQeokAC5AS8{Iz~Wo*kl8Kw65
z9hqaL12lr4=*Vj4OAk7?8J*ky-q}Cjlx4D`kN8mjD9Ma>-U%-coicX+botCLm(RzH
zGvmu~Wm&yq#OF$oa#6!HG>7Ta^b>-ep`RiooTXRWdI~|KZA;d<$oyI?2`Dr`g5*Hv
zq!n0#w>SVl_TvmxVUO}QG^V5cEMR)e?T!RI1I<F_Z}K*zkkex_lW`4RLsCgq14p7%
zLjIr0Nj0UA*Cow5#0oh)rn`I&rSVh(e~PTB%TYZ)G@Zh;3Hfye10Q*zQvV25iJ>U!
zOC<gSdH#vIRw?KEo$q#*=vOF5sT=wH3;MiX+Dxz>l4<wn`oHQ0Y>h#*SmwGyq1N_d
zd+3R$oAMT$0t<=xM2P`-)$Lmtnjb2007DAg8d^G^J701Vj7Ki-Lf3p(Ng$XD`2r<3
jfkYH&T_bYVPEv^Sd?k)iRN%=026?xvG;Mv?Z7t_N3$Y`p

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_405645.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_405645.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6a25e6ce5c3391da66a2ef8f0e9fff426745f43d
GIT binary patch
literal 6623
zcmeGgTWlN0agTQ-kB{S<dQcBbj$?_k6~&GdJC^FEe#)xfYMe?@a-exfi84jXcPGnI
zjsOh=2w4XZg%l7C1c>q#r8W?Mx<G-tK!FD653h70;_4Oxq96CCbnN`}r=30WDB7Xo
zBnZ%aWP#hA*_oZ4oxPo%*}pQ36+!vz^6w^E8xZ;eBYM#&fIRdN2rVHFaYPJ_mRn+!
z&~U>PIZ6?TCnj}neKfS3fu|<zH60a@BkT7^D2{rYx>4a8HFHKDO}grgH*L~y-lU)2
zq~B7%KVs#qZ&Ra|>WXb|qfx5?@z$ztwmBkbzmHWrrCJW2IDP1s?C_DZs=W*zK6(1^
zkrQEejp`<VN%$WA6Y3=-fl13{(x5{dEl1p_(39?`a2l$do*GVSLzWJ4gzUOenJek7
z;l-LgQDh{$Woq7t&^%D8Gx%hm?8H5sVIH;{V33#eb7ZnXvgjf>s><J3GfSP{Lw1c5
zl0FR8`%!Khs~R^+PMsB2;@A5Rqc<Lc4$Yvi5$h{^WRtG9+$@``uveyaI2owXtKRAf
zIZ(Uq$=ZFaDDlmDS1r&2dRZ!ZS@rorFPjc0Tc4tfL2mtlbZM)Z$)nqHqm>)wHr=Yp
z_8MN_29FK_Z#(`2s_Wb$H_2P@nvzX&Lj`Jhij1}=WORUx7P&*S3{#QRF^{1JxjotV
z?pG87j)r-gMsv${%nAF==(d!-vO|ZHoi($AV|%j5q}++^DmT^JU74J0dU6CplYy`I
z=@!r}N1!<rG@TOgLA#I7@VGu^p6ZRpBSAtna?;#1A9Sb&DW+Pdg~YfJnqs4zY6=OV
z_&Bdpu|$YdjS*-h)i}=!2~jm`*bBQ=W0}VwB~<fN=t^{IW=bXbE7Ph`loA3A#==!A
zALFO^xWr0x!L2HNkR9eP#rU{tJQ?NK)2dTz*b|BIBUh$}v4qnzlIjp8A<FUW1+mP`
zRPZSnlenNhhE6<=ijSk5>Z%zV<3;wu*Lo(t)+4Hx$|#tv3QlZ*oPa&3fSsFa3C{@Z
zg^(1UP-zTK@L)4jA`%f<Xe%qQUx+2b7uh%~M(26eEY3`^*i;rU92-lFN5d)^3Wrs?
z%m!Ov)dXk@hV8km+N*d><W-YY9%PR5vn<F^Er}S%is4WUgo9xAaww+K+K|MIByI&g
zJDytpbG~mjAzT!vLt(yeA{4$Dk|q-I-q1K~U!N$1`y_s9x(~3vNGv2yupA#waQtp|
zdLsJV^c)KW7Pd`F#97?W?s@*jm-f5}6m<(5ndR7vyb$MOZ0%T9ltB7!VK3;1-Jkex
z_)$~nQ8#jXmzYH+7b>_qQpfK(-3!S~GIzG%+>#nxXPgTonUU<J+|B~il{$*?*D|kV
zf4yv3Ii+;$SN!`6On>TV(HF>#D8B70ZpGKLGN*X=rB19l+^J*tT>fn2JqF}j?F-$R
z?(B)|ft#LB0v`wNTKA+5t^1mDow>2keLZP<&F;@Jiv8K5qaoL(IJQ3^38rgJM~nuh
zt7Jk>e>SN&wmmSD%(EpDS-g+z$l=m-dNnty_`3>B_bRhPVRqa+_{q@6Lj`7U+5qF2
zhI~`EV($jw`R1VF2x93yAiaWt_#Q0J|Hz6wzNN;+#@v>b0i}6w!M$(Q-LJU&|8Ve+
zL%$y?xR0ex>%h^o*pnMsF%>+0Y4bf_!_v{kqq&!tXO))c3ckLyrRZ>Hk7p8Tvgm2f
z9alWhrp<WN_QmbFhUG4$Iau)Yq|HUzmKL(dGO|Lq04wdx?p5dj^!r*emeMZd-%;9w
zY>uos)0;Z9=4{HntT?wVU%3@jy80Do|Lw?~Ipx3^#d#(*c#kr@GkA3{J)GT_c{4Zs
z!TIawmk)h3_~GE{w!O->y@j@YpHVNvr3ojg5m(sL3D`vn%}}W(ftO~4c(^u%@B={$
zUe1GGTS79LtcEW@sg#<ah1!H;BUmwR!a?c|HEELYj9LNST5T%5Iwwb6>;~oCn@BY3
zd~t#^B+W7<8zY7!EtxA~kWAxs%LWK~2)Gsulhsg0=YW8x8j!&(--ljZ`6lD5T5du&
z>8p^5r_5iUzA=A&`o{d^Q{>mDZ^*At-;i&XO&rA;Z<=p-%l0LZOb(+UUA{C0?2+#O
z7s`FS=l8XX6#of9s@D6*!IjU3glSQ=Vo>vFV$i5knx`kVyH1=4P4k+Ug9|~s+Jct4
zzr3+>kKj9m1##L9qs^vL<8UR4c*m=bTzCmE)mzV_4g%!}d?KlN)RG-Bo`s>zQ1;Tb
zlc^&`r*C0CGoS0cmP`#6y-iE|7x(8bymugV;$G*r<ySv?{lnJ_ox5(G{afctS>uv*
z(VE-!TjusJQpeZq?(Dw2tu=LcoqA^ZutEikw5v!nMY<9E2EYr>j59|R=m2ys*faL*
z*=x>k0XDAE?F!wVyHub%LDn~5wgqd(n%#8`rmPEkT8jS8qQ_hG`o8M&8BL`gWOt^9
zgneL)FnrYl!CTpr{0o9N$SH{=Boj#jQV0V_B}vYhq-p{;y!lTQ&IBh_OHE`HsZAg1
zcnHpXlfD7-;8G*CUdWHnzCk7<R83${mq*stn#77<`Zf|H<oA+SFIm#O(|3_4Q=H{}
zV~v(SS+ly8Wncdtt!csu!%sHFMy&VR^Sx|J;3tHiZ2AM+6nq}GDQA73N*bdmX_AeT
zkVrpS^w%tSMA?DR80<vS43Sawp+%-Sn-&|<oW0UAmDW*dow(I~EZpQYSEiU`^8irZ
z?S-V>1h>2El<+ga1>7kdfa?A$xWbQn+KsPL;TbLzGzd5>Q%xLyIU44JMlCLdL>FhE
zkfFLO08ZW@--3Lu9J5-=2^?g7K}xkryeP5ZkjS&UYLVTw$P2Z|9^n+$<20_Sfv|7}
z&>*cEA+3fa(+qhx7mY(g4pk)&=i-6`kHMyeen`|r0fzuVi)z(E3N7yxj$$$c%CVJn
z6cTP)i#53Dls1iOt?CS^zQBt!F-cU(i~O8w*`U;kLYg#cy-*|slU{~T{1mn|g-SH?
zcvC}bPFHGh&F4>@Tywesa(Pn6AGuI-`v=T*W;wLdcDq>#9=tPp=j7dyH&;hEWrWL5
ziFcc%^~Tnvw-(=89=b)}?)|hW|IE3&qwMPFxH3APpT2yzady3P`$sJwwyaFv?!I#}
z-}^YZb9NoVo&LrCW$Vh|t%>}WpZ|I0FUdb8^KXRjdbzdctq=V6ChMb)|Gy&3XRo*Y
zc$5iUZ~yTqqg&>|2(jN|N)44>F(CMfj;#f@tp<9OK+oraof$`(OpmP7ExF^%QKj|y
zTfzLmX=V4B{JGcjV-e-tcs?rR#Vbm5t^_F;al`=4QNvlo1B{(BJVMAaY*=gTSoSN8
zU1@Wc{EfY2K`p%{7qWX(r?hx7Xcu0^C(2ZQ_E4SW_PH25p3T6+hDz&@fFn4SoQz8F
zT$G5568H?Ek`VlgkBbRGJFWsgE2^!0?AUR5)A<-_GnFHKdSEKS&BXWv!X)tF#8><P
zsuD>M#23i^cf|YywXPB7cLG-fCBp!*ztn+To&`B0mpU=F6?y$jI~R9;`3ztWNo25>
zxnyE1;Vjx*3j>*f5()5{Kd>~mI94(Oj2}3B3$aYBWX2ectj>kjOl!%4F)K3J-Wj_(
g_Rt2{!}A0pm@n<41mS(~3W=Ou1xNQ)o3?=e0bccm=l}o!

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_42419.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_42419.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..df82689978aab4b786c874a3375eb3b87601d4fc
GIT binary patch
literal 6189
zcmeGgOKcm*b@oGY`KS1iL{i^4jm^ZeB1Lwp+I5rI`ni@I*>Mf2wzo8Q`H?A7-lbw&
zUKVs<AYv0h5_%8~qzH4WQX8m?UVP}m1q#$aFWgFviLDC=h%WAlj@(O5eY50Jv`X2j
zQJ^_w0M5MMym@>x^X9$%i`8mE(ANI&o9JN=LSJG;YfJ^${2G8|#37D|qsj6}OcE+i
zPE(UKfp}s{)uT-<j~vO<Q<kS`7~`n=^f1lQH|SfH36lm+$D=7no%#A5=!PBWOnrKo
z;fy!vNn`b&nQov-6Nz|J)durbB4B=mO&C**?;JmI<j3r(fpNuB29J)OI681V)KFuh
z9$*T7n>Of|QHs!bQ=|rMjT~{S!cR9mN0O{cI%_29EnOPKk&@$9Wv#S}qtfn_p~|DH
zT0Avcw2jupV3ZsYB2~rfZSHMdb(O{%U3IowLXuOW=X40ofySx@O;VF&#}tm3gTn(b
zSe<T8*|lY*W=-}eI`=!^d7rZm0qf|rb)*JKUxmGrp$fYsMuRo|Y2R}+lc3qC%>vD)
zD(sca8eG-puhCZL_(~qhU-ex}jjU7q=UXGlwqWm6b+<l8-oH)0O=^@{v4xUPYSS!D
zH%jgbwGHn;+AX!DJs<y`Mj-8;GXte|Pu*MgXplsKM=Y8?@QAevyCho`Zq)uKfv%!}
ze(VuG?gBoY5lzz^-4#oO1B9aEQdejAfLS3^am6$vBqKs_nvHRaJ}3ke5nj=S<H=x3
z(arHfQdA5o_C~Kl1C>*BWf{YC@JeiYc3PqMD>I5tOeF<A(5^7=u&4M-aXz8wMq?a%
zLb0m@dpsE#xH5AJ%b%D{DK;@B#5kV4AeM!#6?_`zBrhmWq0y&N@oAJ(9JO=fym;Y1
zC{e|}O-3<Q2+7$CHE^^B<^&vF1bp!oCNwLsQ6B!i5knV(sZdnWC&OWp<rITBJI!Jz
z7{MiMJQ<0F6e<`B0fWE9Vpmu$#FL?mY=RYIbG%}xVBr4u6@98a!J6PNvs?3x$vDS~
zp<tX>jF_W>VmsK<@$B~X>F&!(;i5Pb4DsF3VCZ5n6-_3(f)PHE>K27icZ#2$=?1Jj
z91n_7mg7T7j_+k>qOpB5S6N`NursM-g2i;UueYzK9~eqI8@|l37kMGU$JyGcte67j
zy+RMzhQpuuD>!)>^kffmI2Y2{bZ&gr-kuqL=x{Dum#n$qs-q(_vSGC^Ok^h(FXi^G
zT6bp#i?)W$&_jo3G5kwwX5^vCvalz+XYu&r;oHvN`abuqnffwEHf)ZCNH($<&3jkQ
z%bf@1#)GT2Lz$tX+n<Zc?%gY$vir3=M%mS$Ilkd)&b55udS%}55LP;qJ+pW^H?h(x
zw;qr^2ktiC8<qRVWzTrg(~?Wep1qGLqOq&kz5lLN?jFF%AhC%E+Ym8NZZx=-o0gh#
z?JNC-H;3fchGg$h(c4*gxli`?fv9hP@y)~c+T}Oj#mG3G=R8Tw>!0Y6*Z-;MrYYaQ
z5?*cIKW}~LZd@K*8qD?Q)3U#B)xCe-sF4ojM`eG{s=IgIxNd7$9LXm0WPai^n{3-R
zPZgcs+=%S_-ilFn_RJfK?#`^S<VEh?r50qiEgG_2nIjKr{fEQXhv!c%_UGngS3tG~
zR)+7)$$Q_Ht#98Oygw-)JtJGs6eiC8jXt*tyMzQ6?r^*jAR9qKBXptKM-Eff=k)*t
zk!2*IDIjcb9N`60nwE&VTvFxgBywl2q`SBW4h?w>eL(D>g;KTXci_@0*O0=ts!gIL
zU07Wio<l++A%LPO2+P~sR!RVxUxZ&x6n2<TX-~-x{A!8-{(1KL_4!-t*XM7oPd!I}
zeg2mI`ur{ZdI>T}j=HVCg-;bU0!h><6flgbFOYy!wMY0ZdW3iB5k6)Cx+c6D6A(c!
z2Zb3?F=0>*DPn+vXC)e(;nmop=*tm1z|=dsimn`!862cp(6Oam#7UPHG=<jzQC#%`
z*bjm8efWubHGq{Y$m&@b%Z}xGWJ_yiplEk5T+3d|^<;mZ87`WA56m61xg*~on|I}}
z{MFoDpt}p^?xMr9Y+f?w-d?h0MvAWH<%3HHbC;G5Lr9``<xj5+7hc{k(+7%-qsUl`
zOjD6D1H53*+H=Gz;{)P?C2Lt6|H%Fgz@`UGo6NN3F0C@1pz9f!dBK!5E%tl_OV$OQ
z{-UR|=yVlb?tkre>-42pk;R@lCiH?oLh!3LNLb2I;h%6~p;95zh$GVkB)=p_rzuXC
zrfbqByye>(r-vJ<rl=AM*CxKTv8OVJGu&owRc=O&R(zVaHSMN{>6%o!PO`0PtVD`$
zqA^UpkUmHww>Q;7>c7z^(VX!UU5%CBd9&)&7xJcFErGuCDR{A7nfXFKC2%SE-8sbv
z^MB}5h<Vtjoaqxft&5?wUeZljtB1b|Xx~ntXnzf%v#=9sLz<~6>lx0Bvm=S&ES1q(
z8Euu(jz=xV!mG`2We&XPhk)~O7Zj>`c*z}OLLcD50o?6}?$KMg!!@`1x+`>OmJ0?*
z0ha)Zp5xz-h4_F@eX13MTGc_-*H8g)kpu-3)J<yMsTj)@5tK^-S}~`1F~x?0BG2~J
zBE7Z98?{KEa0J_N6nAP`i<4Pl0J;F9=%6r#V$A?mD;G;ZQ41Z^vbc)n5(4(BfWM>w
z9V#PHz*#`RsF>7rLao;X><Fkip_Z!@ZcxOQ^9(LFtuCXOsy0KpEb!uNJS8gBMgFQ{
z+~OEPkCumYloOF=m0K?x`3VR|;V0gQZOxz(gPg9+v30v6GraEhWJcHR4FEZunUN<B
z<Zb)ZdefQ@uC(6u%7J(8P2L+_n>hbqf|Dn>!nC;7oZ4t=S-!S(Er09|bGPe$b79xX
zwMq8DWJI2f6lUIEYr4GA`O2^TpZQm&?(VraTIhP3-FX=bDxAvXO;A=u3++Gp)9jzq
ze@qw7h1Oi$y7#5W9!s<7Nyq=+ko@?~)^Cq7!JBR09%D4mJf0wa;M8Z1mEIx|9HOCh
z-^&ktugbnxzwqtN+UBYGi4De|8_CDyme=nD3WrX}z3&!I{<Ls5ET4=NVnRW@BFC<l
zAgmArBn*S(IQbZ3C&?!W8BdYxO&xiU+_Zb%ut@#FQZgccSIL1auFRO4PX;W)F?^%+
z<?jrNy*%!V!>6ZN_>`b98YJKhPNAk^DfsM?Oo%Cn8A7EPc#ltrNkP4?0=_GXxqR)|
z2z)vD9H}dn?-+AvI?2t(`NIMWa`>~DxC~v1A_(G3WcfR?{sXm?^oV3W^j-Ir$S&eM
zQR={7FQlwg>QvE}kjt~YcWLieyD+**A<|M2{29?n*o!vTLOdHUQ2?)-9SeuDhe|qt
xL2ILb`Rvl!k^y53GT9eevMrlNz&76_5MlkwGD#4w$8S-{zI)ZS=ek)n{NIA{FKGY(

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_450387.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_450387.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c6fe3287f6167dd69c00d6b59dbb770cb2100ba7
GIT binary patch
literal 6867
zcmeGgTWlN0aqmSQ-xMFFM9H#c2exQSRxB%39NUQzTk+ej?ZSptB?p>!lqgZ8d`HES
zd~BH_K*%HjDfB}$8X!!6qSOYeq94tt3lwO8{_rd#Cax|ZAo_7XS}Jl7pg-;Gkw;M~
zWv6L@<|7N-?##~a?Ck8`?9BYhW-}uwKXCqP<lYv9zQBlHELC8YBoLZIJmQHc8mzR$
zAfe&pI5kKUNFYWvKKj&3%aZ~<YF*!lF`jDNAEtTwZTe1i!l2QFcni-6Xw=z&hhdX`
z<0k#=CjF#f3Y&S;+svT3wnOvVXwX6;!BUgOI!y$ukFgl%Rnx0yFC06=T^_ioS}Wl3
za~F;eoDDVAiD>|sf^YRc)N?2SDy)=IQis-Bp14z`C!3xzlB|t%)s3Xrc<GRg<R+P(
zVGx>uuG%cO?3Nw4hbL#?$N&a;k{+H)dJ{%{E>G9SZ>d{_)#+=k>>MT%HMG$sxXawB
z?l|eI<JIU|5VEs2wmIR@+46+!(fg01*Z&Ukw$yQIw08pb&ggrWU9zDDx5&mC+$^&?
ztnYWU{tT-EJbi!q%%uMrGLayYNna0SGS}c1*`mWbxBo(p);c*{x(?S`d5hetYctta
zH`cQ@Mu%W*8@?sFRLQNfSKc}UT$5heSB2_NwGofj4LsUmreAK?c5DMqKH%9tgCVcn
zmfZ6G3XNcdcLvPQx*G%LX=9No(5Y3|9q80ngPUc04fZwCrc8}CZ{&y2sQ=&l^xf-P
zBhWMo7|x6MT0h4B?XW&)hVG8U!T~~M_{8*t5U{IcBC47v#Q3ln9OojuN=M^CUS-12
zBvfWb5aW_+)UX4+sv#%_W5a^VR2ni7SB>MrsmS=`xJn6A6DlJm;-a9^n7L{eqQbZk
zOK^$lz&4eAmAfq5hzc>4ITzu%3#vnFxU=!$fvJhhn8St1gzAtIVuTmC>zq^>ZL4;S
z!z7Sp9Xhfey}lmh*P+q%bEE6$Mz5>Z>O%3!1ShS-M%H1xh|Q*m|7z6~niRR~!9-|8
zWidD+fbxtWIfplDy&jE+#<&<KMP>x(o*d_}l1!j7E*c+>gj6aR3aRFJI4p76Se30z
zfrB6uZ>okwWtcH0+~i;u=r<IMf@UlIn47c><k<f7@{cP$H{;@%G!YC5JtM);STHdX
zk97x!;c$8+G1QX~#wU6J>j_7L(g?>3p*Sz}auXwweG}6h5I8uLL_Egfey;C@=MTKt
z4-|D97rx1JV}ckHqFnu4PD%jxUa=2^!$w>B8(hN_deVuS+;g^BTRynx+@3o1$kCKd
zW|H}fi;iunlgoBzb~rPf8!5ERb4tfyWy|43`;pX%lBYEvQ9QfnI~32}1(V`Fm^!;;
zZ%Unb<n-pkKequNvo+h9>CBzYy?od8YyT(y2j;%iv1M4RWws^1KObFe+M7DP>}kn&
z<cB`@>`AkaY>w>J%+->$DR-)1Q#{>@wYy~BlHaP>cdbx_ZTFInFr;mF*?=4^`6G(G
zbHzy60;?2bH-BwL7F%Y=`<JqVnZft=l`Y6*d16N{&zx`8SF(c0^W92&zhdp*obM_{
zyUbs+>lvAl$??RB+}^o8vwQN_<_(Lkp0x3i(=}(9HRPrX{fckTqH}MWDY1^+3kutu
zHkMdRdNN~8Q_Ei8+?ClY`PT|pmA0-$Z+F^^X=3hl=BEnVo~H1emlSqu+PLIt&6vtP
z$h)`Pi!An>G1Hwo_J}sTbMmc|cupkW1-ek!T_v+CH>8+5KrN;nOJ+|_R?ItB7}E3{
zsKsQ>8Zw5ol%2{<J#_3)96J`-onM(4#;^*<jzk}>uo)Avbrf5m3c-tCD_(#!FND>+
z5SbjUk=6j7!1I!fj2co&jcVA0N@-N1O!LIpakz=(Y4kG!Z0j2P8YDBaK{ke|vCi7K
z#w&t@=ttUUauiFyq3BN8X#GyBV{{sLKG0M3acJ!0tXr38DBn}0sgoIY5hj!Dnztmg
zSO+o*9vAE!bZpunFrd0zJUKQ52h{|l;C<Uz*8IR20bUP!`j}1VH4kwUdd;`ngwE*i
zolHDq{l@gQ^&8XI)~BAqzcGD{e`ER@e_A&32A;layyLEDnm{sj83owN+bv=r{qaAc
zJl39aeAOP~cPBvCzd<p0S8fKy2}w0$P&2(!zyOcMND!W33O^il1Z=!!j#Y|}jH`yq
zV;3+r`a?D5DpP&e@SDZ~<I0Oi55w~;;R{rIbHoFHsqRMhe*h?_;FG2_`(L&rn>Twt
zb3VUcv2INblpLPyt<0_b{>)EOCrj?;xkIyu^5X0(VBamC+>LjS6zS&lk&?xpJ(xL|
z_ZHasu3~fleM^6l?k`&UOBQGLQ07oh%9BM)Yk?_DEp+~_>o;A$-S@C}K<OP=>^<>W
zK<T|)ymD3Py;>X+l>I_+Tll^uT%^NAOSok5KeTLDEZYkMAD{W?%mTIGDn8eD-_lp4
z`-+ynC3qZOELz%9$Cv4yh2shxD6!5GYb&unFp#D8T^~koM}HApAnv#CPqSG^#*rr;
zu>OS`FeYowSaTQOb9@8P_mFJ|+nm3#$aVnhr(l+>Ib+W4e-9*R2)bHJ-j0&XU2=QA
z+U;Qs<t}7(q)v-3zzKxls}=lb<IA-ASFlhJI1@>*L`ec-ERv^_6wf5-I={Ob9o1$7
zz#G7tXtA4&!u9bLzMUHiZ@kOisanE1uJ~?mD4KmDWhzY9MKld!I*nu1?tT-FVd`7)
zGj9+N(2529Px!&RWBP!plk$6Q*3|l~v}w@Z&F^&zT5Ocf_*Ob4u>bM>J;fLEf2dQi
zd03~s`2#x1L{QQoGoz42*jRMW3o=K05gLM%NE*R=t7VsDmbYmB8_Qd(t*zSHtE~gK
zx{U=Ng5@g|@MaGK<^68RSQx;saGn=m1YCRxR|lbbd=ytWd#U*vDjk~Sg8@>+F`H`O
zg*PK1A;4(9J4E_80*4U2sS4m27Du4q8sPO+QzdqV=r=&CmV_WBxKL0Mxc&7=Z#{CL
z9_bU$U^&j>sunDW=Ku|`Dg${12(pckc;F*3$V@;52??Bt;A0}zs)!SI&<}o&Bx1iK
zU{cMR3!{bK;xSCN;n2Jql|#mX)qET9hqPrNtkz|QoQEh#lhK5vQe(ojYFeW-aDAFJ
zY9s&W4Olb<pY$0VYYLTF<Z`D@FFBm4lS>|N>fDl}2_UB{b?S)|wX}a|yKO53=eK^^
zq6A*OH+b*dgKKX*yv8fn_~N+qpgFPZYn!_@d#iAIf&H}mv*zN?OAiLQhl9h);Bax`
z%?G}l%N@HuZvCire)QAMd*_PX>&YEAmn$w-!90I*VWhb2l|M}WG5Pys@%7LHH^0=f
zW5sK2Hb2?^{}-fi@%Gm5jxfR7?cW_?bj_?>BVKYDQm4yDNd%YZ#FGEHhyFc^f6wRs
zu8ciRrLQfst@%@hh|>1_LZEo~g3|lL;-w!Khr-IG;bKHAN>fT?x(qH2F+f7|8hMdi
z!Pq782|}jJ<dScD!K?Uor;R!4U2EBdTD!|mWOb*`YyM<_5Kq9x4%oy?&_Je2OAx7!
zO1m!#dBRCZ0jaDGiP(`-snJLRvS#s^lmOEqRw5F^kA#>M7gY*=YVFq*@qeRQD!(8%
z9FOv!AZ^u3sKFi{kMomJ;bn0I#^D5~^h>D96hRPQAnTuz?JuYek`pBRj{hxxnS7Zr
zl(!?ND=TN@atFqC;Pgt@Y}c1N0b8XIX|0SpOQJ2!E0#{efn$rqnZsoY;3cnrZfJI>
z%m9p2L7r?h6D=Dt#v-#L+m>l7n=ocZPWLLFy?UKMgzZb~AVIiSj#9|6d(qzcmPOmc
FzW{HttOfu8

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_506478.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_506478.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6f66b97682940b04ae03f008b9e00be6dc51992d
GIT binary patch
literal 6619
zcmeGgTWlN0agWEx@%_@1q+W^jpd?#~<0i7>I*u**q4*KWK~bqr4>a#cQKCrs?qpfc
zv0#b-p%Me4&<{~*04qR&$h86M)A_0k6lj3{@FF!Lt}Y-T`cc2A*!}58+u0+Jq8ut}
zg96P*7P#G+o!Qyh*}d7B{gc&dLQn=Kemgo|gV0wPQHw$W<jFswT0jh9h$tE<w8RLZ
z;F<|?L`xu+7*n~`(a<s)Ry$@X>nMT@S-C%?Wwh^U?-jX542+INV~z^r^?URi_UNbf
z=-05ukclzAryVhsR%dz-jhHovHJ9|T%n*L_7FOeuY&>=0^659|EB%AAr2zI_yxiA+
zAy}@a9#~2Eo_qoI0ul&37MC$ip)Ic&;$D%SaO}gWDRDZ>IJM={3b2So$1MO={xQQh
zd4y8e7*zsGfI2ea5?!JV%VIRQV2c5UH6+|+^H<t<LbTs2t~F6r##`Yqi1sj1ri-nl
zLJ7D}mSj~k+C+`uR7s3Z)zgd;wSv3UPl#@HOdopt3(&YuBt(a(y`@74uSRr=x)NL`
z>Pv8yXi(uqy{LgPl#0U`V+pPkO)8x5l&!GRZq%z<CcOJ_dP<zWGR`V>T|2E<EBe$G
zCK}3k;U|8!0B-}{yOQk2efWLP@HdIoVk2Iy=-uZeRoFdsR<WsMuWGTTD6a|cMWRM*
zNYvh5(;|@sdz)20u(zcISBX{?PBeo)HMh(#vZZV#b<eIF^lcVfDrqc|W1eqvkNLjY
zr)sa-nm{wiufN3M!@Y(7TR$P|7-43T4XcA?G7<~<?XpIQ%BD#!9_9iQbcB($(RhG?
z-ngub#Dtd)%lZHph=o~McZ=oXyle;o1Mb%;fUGM}4HJQzk%_4ZnPhKH$~s<%b1aAd
zXW7I?*$Fl#(87%WIhi^|UtzCD*_f=m7-8tkvR!HD3-NIO&B-fRz~w1Hw(<fOVOV+s
zc;eS~qocb~emBa<mg3kb&(ha+VWYb+UN#mvVTKYox&tyCc8?tXS7c*wileUugy5)5
zVQ`cMD;aq9I*r$2xfYEF$LSc&M{cpQJ{}73G$WINU=VnwCTMIEBUp%z#>0`IOcmI{
z+WH&xq`-kyfq)^IxFM6ExNL~A(=?0#Qw9T3z(E9!2~>PaD2y?NBC$Y}z7dG>&w+}~
z`<8$Fq-Q$Ljq{U%Alow<2#yDY(Rl1&APl?H!*jtNft{G_0jwt!4e+Bh!v^CFdzhXa
zjU1Ysp@Bfdt_blMjr-{zz3}ppS9*aWH_@SKh8}0R7#pR_$I`q2(hqaJpdY?&_@{6f
zljvz1a=I6+^VUpY)zO?h|JdQ$!Om^k9CP8>aC&s9UaIL_wRNrA4oS8{_qhi*@7`Rs
z^(N2es=S$qRMo!RB2{&*7$x`7<b_SEeQtPmIDI|Sy=rYwo_TDt%yrCmq%WjT+;=_j
z-1V%PjwDa#Y|iA_$IhDc)USMLYx4YNReh!<bM?!r&J?v_apr8bnS+w8eVZh#9UHcq
zOoL==+tz8U?Rh=2*A`F%2`Gi^)#-#}JFsokT3hoZGTQSFWc6VQ-FOg4XvY$KlC2d>
zXe&riP>|4uhd7>E5U722_H6phhnG{t<KoK0tG31zx#_A}=$!A&3@?+buI`ipTS-5!
zPtPp9BGq=TI=WK2$H3Ay-<EM_rWYGlUF|8uhRvDopB>M<ey4A-?>DYbJ)d}1ecj8`
zlJ8~7_Hv5Mx#~0h^F2#vC0AF<0EV13=6g_eSN;exT5=|LIwF~xKzU>HhRKy4mQ0PH
zys-(CH#^fuC6jO4KpGoBd7U+HLC&glcpl97SgU{k+`H#eKTXdpi1Xso=}*spa(?|l
zuXLbywf5+rwa1>o<|D2aSJ(k^^|->$EeQU)RPYU=L?jG2t_36#V<plKzz}%w9yHCj
z&`3;67!vw~PBbvu8;I8opkETAPSl4q2}-~-D@CLfDKH1ztR&1-u49pBCmz~^UW$T%
zj*tE`h0%?7fC-#?jMl3jJw`CZ9z3MVBWm{1urhr|Lrp~u4MhzrkKU~zxsL{w={p*b
z->O07(K{MA;HIp!M>`hM!j9`0{e9}5tFRFS+~QY|-&nXKIlMz#|AKNtfe@U(Ed;)5
z3kS?w&A2*=t0b=Qg|MYut@z0JwdL1D47~kxfScrH69yIk$NRP5#zzB_tl|h|ec{@X
zwJ|0#;Wt+LEfkTmu6W_#%Z3JVGSMe%!*DV3Mwqzd@3~h1liigZ?<Js|fse0N9B<x+
zJWY4Ji{7Qd#m4382j08hmBG7>537IY{mlDl=(DEuV5&FSpEFysjxNdEmDP4-&0RT*
zGu@jt`;vW|+UJ-0B&|P3IdYUWN7d#iGXQgzSxb8GLwh;sZN77C@z}ESqt{Zp0{ymq
zg-|($R;fA|zD_ktRAc7)D%J7~)_P>U^{CW(^x@zattV1;m2r(~dGtC=I%k?SrC<CI
zRM-LQeRt{>>y`#TYDkd<`fcm-=?4RM2UfUymvSy|uDT}Ya_8Jte{Xf`^!W~Cu_p((
zqhOvOe5C>rTfqzc4bBuKltcouiUh%s2@S;cB%@1c%i=kF4xTBD9{h$9!;2_Xo;6g6
zx)}qU$>P~9lUl)JK(?g#qmZ^N52=t7DH4mm>_3qhBEOTo3i*_xA^G3P6Sa)-V_lh+
zKUlMLmcElU^*B@c!KT=Vm7aROlT8Wymhgj3|Hn23pNDPAm_F7fbP<%$i@Gr@o?~}W
zpSR$Bqzj>|uoDo$QG#9N5-G;4L~9gdDYn*PYb&;P+^Rkn?tO|WQ1qhVI8bgMgp6Jf
zv4G<ecN%c+6t4PkbrM%6aE1M`tPM^v0l%h@*6JDdMkL7kb;|WE8<b2HGFN92z^NYO
zY>@paajtAE<b04ZLNs6&SYDum0mx8aEJqHPBQKRBN4O!Z#}!;DVKfe&xwoM5Q?d@S
zZAeTFkcu;qv~$>wN@C8$I2^!m*j$j$Lw?6|I3(~JWs?$HC<!a~1}0l^GF!}JA=IFh
zpaTLFWfIv`(ioCej^(GK0xy%}?2K&Op;U-U>J)0F(1d|W@y)}34x5@pkWsnZ$$<^K
zBYAG4sycab!|nvg;Yyx=>Ol34cdU!nrNDB-!+Obo>e0xfi)+I_Ums?qVJ17luhj{g
zwZ4US=HFQwSfL&s{Jbvv{LtD6y*?6_M#9<28*8=Gn=NghdOz_lk3H;obTNByH@Rhc
z(_Odl>inxqrsZ=hquHj{{xJ2&#P1W?w}WeLW~2VO?P^P%>1p%-UlEAh8oocu1Qr{=
zKgy_<*&Zg2x%A0_{7DUhLv(h-b70-mDS0}-^mNbKQe<j)lk#THFGVEZ3oHKY@ypWT
zH?u=O%U%shL*Z<M%knp+$V?t5nf)4Q&S(ZT+ZY?tJVnTOMYB=cyi_gKLb{zMKd|JD
z$a@fye~UYLNr@)?R&E&oQToDbiEJ;lhobO~HU;k?GNnQs{$pfvEF!=IQ#{5C;4!#j
zlJFKA<KrBDrW2HZmcu`cY%ctJbT}Sm?jmKnLikS|pNKP4QT7BE13vub$Nw6tJV_A5
zSIF`gWc@4hZ4id{J@0z*njaId<{Od2H7CxB`6i4tBX{*e_k8!)Er2~Ck;YQs`UTNM
z*mE}bTy!>?Cjs6tJLZnh9?$ClhG&5q@50sjt9b*)C}gtF`DT52BgRa~;eKKU=*gP|
ZBCKCqMhL>aeUe1>_ElTQyJkiCe*@FWdN2S0

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_543766.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_543766.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b2b4b8b68107256363c0ec73b2e39b5b426632c1
GIT binary patch
literal 6224
zcmeGgTWlN0aqo_g<B`WV^?oMtgNkL>@*{R4q=sWVmMhz}l{ArJ=Rot05@m{%?@p1e
z+!YKEAY>9i6!IY&2oMHE5vMi~f95j<3N%1~f(N-VadiO!(U1E@#YR8+)!E}6Njr3$
z1O=LpEO5IsJF~O1v%9l1_Z7=B2+AV=r<r#m2z`SQt9VS{9!Vgyig?5mDKu4Ui7CRs
z$vJAuMj(NhHRM=BYb{R-wpmL`6N#r<_a|(;?QPq2lXJ?++XXc1ZyIQVyyFr5&PVjq
zkLV`_7w_VUgokI|woNhh6}sO>Q*IIo?z%3XD@4?D7teo6cO4!-{lag!iKAz9PYpbB
z^7N6T<MC!y?Z8UGckd;rSCI@Rtd&{Pf*LJPTsP^e|1q3ooiotHX=})`AO$J@B|z%@
zK_#eoaSu-}!Dayrny8^BDGqCFqvZ+3ciq%j4fB*5kzE#*x7B60HA!i45ES1uAzQ;x
zt0Qs4UZ161_F1ejd&ufPg3f;p`gSOO#kK_2RRW3~w|GTLhvKNiVZ~{|YG;#Pt!zXn
zoy|6y4OlZb+V9u9Zh<b)i#GLgS@VNlj0LORkI{uxx|?-Tdz$!z4Sg&~X;XSE+o-)w
zykU!@(E@KT-t)S)eM-C1hc#2%m52#N9wVdYAsPK3qhIMV*2kKX`j;>iQF_(3_bWCy
zfr=Z`VXr)v9h9)bTCh6MG-q2wUkg$wWx&{9&~nKQ`kN<_Kvz)IaZ1GKU3_z<tr1JM
z;bb}yC3HJ4Uzr!89-Wj^Ix{b3rp4GCm*jO@Dih;%M@)>Rrv=@f094lPOM;k@bf<ys
z8PV-EDk*1l=UnV^a&BQxr-aM%x?Pepq7WU_>BHQFa499Eb^FOA&z;tNM#GI~rjK5p
zpTPX57i684WHHGL+#K*^E<A|NJcvpUqP*^J8k>>??!tF^X1>!S=^k@bW<iD#&DhKX
z7%yV?B;s44yW$HXcOfRnXLK5aGXj{1!H`s2qvt{@6Tir%IVrg$=#ESxA#uF!losYV
zY!w&Sh)ZRrlX0Dj#p60%V+U)~1}m%{_Tdc^gSF@mxyH_>g+;D0+LcN1oD`3x1l<LK
zO_?<zupns=v>kX{`OoimEoQ`v(tIo~?3#(iFUI7VOnNvrEu`gLk{I753v=_k0Na&F
z#iSXI7vdRS7~$q;k~`<Ga6sT-)8tH=!~NX8y?dV7zaJ=iKbKhKxr>6B7E)aESWc2b
z`iQs})Wc3x`Wqa|EV{oH1wyOr3R{e=`3JINcYJ|mHLn)Wtoi!0$2Wl1zS3UoD2-{I
z!)t+^*%Os;U#U|I4_!N>g?HXOsD(ze<9Ar!@??IpaH+Usjop?#w(bpNU%caw6cQh>
zAd>McZ_jTpj2E825&W#{)2>_0-s}q-;m+b<@!Z$pp&Y&Li4<AQv!&u~EB0#Mt(z3V
zZd<nyJIQXVI*>0?P&MyUn@)<|Ql*e9aNmQx{^eKluM}P`zN$sGtg%~fvr&zW-gx4(
zp-+d_*nK$?#<6YXj_sOfI|wg#Mm28~OCJL1CI;e%YVsHq3>(Yszji?D+_M(gn{#Y*
zbbZ8JWl9IHCDuCj<=8vnw$)=R$BG9_s@A=CExa%1s(1s1v3w>+Rf3(xF)g?y=iD&4
z_Loj--MiPqBfv$wb61KZ`QK}FFR;?S!a<Gh$vG?G!Mv-w8%3V3?nka*VO*mJDon6&
zPGbf^Q`ZygjK46dG5wo%(lr2z+S&UIvOC{7{?_r_MBzaG_2NY7nXBjjZhQJ3Y%3D6
zZxta<LL&B7Vmnm2Lloo%F&zg#S1*{)c>Q%a2&+gTX0exgs5D;vN6;H@y+gGtcEyn(
zRi}*Q8bxt-LJRLap^)GyiP>fiOr8hkXhpBj@rd!1^=3SRUXKA3@-g$brZ?tqO>fLk
zJw|?OdP9C|dPBZVp<3=zorAaY)D6dV^DQ>sAZP6j67i+KYrIByckW`R8nrb$*fe;`
z#h5rR=?n%9e<4LF-G&{i;Wu<g&2dNRR;SF6rQ1y(jr}tRa&+4?ye<+A(^*bY+yjUn
zYUP~{1LY`u(pOMrQPqpudsb&xW=nw&=1MPrGWGG)P2vyda|g0VE1p2%K-t}sJ+fhY
zvUEhVMJu$wLbDaR9j+Px%bvWaaOOSV4*=V5(|sD<SG=@F55oBG!Q9JCo+<2p52k4e
z2D>Yfj@4IJUM<Exc&!o)RYKu^Zwc8Q;yzeU9KL#iP@#7H{sl)KG8aOHpjRazd?k6C
zO7V8p))aV{K}CHu0K5aPR4vRziRRE1@9aZ`ciy0{n^&tzYKvgnx~d7AT$eG6H}9ch
zNHnkc50RLlev-UafjV|3)Q^#;*m&26_9iWVv1WZYjs5<y)^y;2_ZORDBewdd@RMvx
z;8gb)oBoe&3O*0plxIG)srDpN9g2Mx(!Ym`^$!IS_@@y%2RorURl1SnD>Uym0vVe3
zm@R9zUbFS#*7C6gf)O=}LvfA*<^5quH60Tu>OUnO09<?)R|lcGdk9zfzl`xj>$dm;
zAB&Qr6MA$9FT9bA3sJlA;6kE@b2P}=0w#d74@g2F$*Bc;u3A<DDN)p>yJbO=xp)ln
zvfa(dNHemh8QCiy$9jz6%7`Oz^eCQyDoX2iNGl=xazft8C)1FSLS^Qmd|LEkPHbA}
zhvY>P593iToiXA8BPkOPVKNKKab~Ut;Q?&~3Vd?Tm_}#nIzy@}3erMKmUQZ(a7A}D
zDERk|6-*4&qKOWJ+A5@Y4VW*%Cw&Rq3LyoJf}!k*b)P?bd_5e=o?Q0@0P+X3WB2{2
zv+pDJDqD(O>;1e_iyr=B>Wh=NCSSij$!n8*c}}|3A#XrH^5)8$r4u*l&xgP4C_j1j
z))aSpYFe9`F3-Plt9@}}aO)@CA9r7y{e1fuC(FYRk_Q(zLLIBmtvpv^t{uNQQ||xu
zUl#tV{#h-bkKYRM>zz+*Mm!zN{el0#BBe7|dw)L4#IE-Je3Y>)vpGpT8+2q(R1c8|
z4$+J2T~FQa8q&IkzV6zQ_vWbF<Obbc94jTYo?qRJmPb!(Bfl-5eXV>hp`D#BC&jXK
zSxa82LViRXC80S+o*_3ec9y)4kZXcmZyzW{wDxT|XMuXxQ+1*4;i?~bLfKPBJQ-!h
z)A&X?YQF+>U#;Dlg5O39knHQU1&KI<)2Z2{4F6FwX-Nj3A(|omOF~-8h&lzg*|@VJ
zzA(DGcK5hx_}lR*GN!9tG<tL{!!M+S=S2bdaLOqC5vnRh5X3jg^AE)S6ZNbU&Ud=r
z>Z+2X#Exno@&}idyi)DQ*Z>MeR(GuI_;wJmdlVu)H7<qdB^(uRXgQTnRVjei-Tvj#
z{Akq<Fr@Kq-K*zT&Q+ZlqY>j<?#cI5T^M7KKU8&N$b%frJr<yQ;{+nuZ#`245!yUN
PA>Xz&@AkLc#xnj3R0us8

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_560861.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_560861.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e54582351d636430eec3d78d126599c0aace5614
GIT binary patch
literal 6274
zcmeGgTWlN0aqoB}k4GL!@gY%f$%!q|w(M9*961*9aBRnRB)hho#!{RdXx>qz%!hJ!
ziY?_>FhGEiO#o5IhiD*Zn2#cIZ6N;4M?X@aKm+uL2f8tFbpZhp3b<cXZ1kgFojvkM
z+M(knDA0Ulf!m$gnVp@T-JPAezpyNWpb+8TN7wxbeS;CBIO@P%l0aw;@rWnlXtvf8
zvxJV53DYb^Ac2_I<rqV2El&#6ydkB9#GBgpM<||pkGfXpoVD_10nNKx2G&8|@{oS(
zL;C55^pk>(xA8>8!87ksvrJ=!_V>`NokW7Yp^IaQ2s-ZI`A=%LLsO?-dWAcC<h16f
zfrqD09X>J@ZdKI+tS0#G{ub&rB!dZSWu7#kX3G=T>h!ex5u9X$v!jKRYRWPo1u5=j
zKpOlW#iKZJ4^J+`W&sSEq`fUtu+9$@o={xZ>KdngyeaLMZ3YWZHDq_TNNIBr6xSRf
z8^ch$BXQl_n59d08LTk7*XTct-uN2y4JdAfS~i3J9f}#ZctuJ;u{2<xVm07&cZ*)_
zY(yyCtu~tPFlKJH->-MW0zIG?UDwNI%ny1o2AuAFgf67g+p0^tuZ7>!)W?97PNmPV
zO}f8@*Jp4vTj1@-d*0A?K<QEjux9Bl#b1Z~kC4&#fQ&(qF{t$D>tpMZ2A479SNhYP
zA66(hfr=f|VXqv99TcC!8gP0DWcZiuFlM-A_Rgl}2BesjA$_NZ+wGBJnhzM9&33-0
z2^)}M0mE_xT0%j~Nf96MJNORH8Jx@1SS%R{5}KKpmllMeQzPZL#w>`bIWd&rV!TGh
zQz2fngv3yCPSDH|KxNImEQl#dv+CHB<C?ifCFPW6O@uDT5{n7VBwSw5%#xfE1&zYO
zHAaXF2_Y$S@=|b{MjztN3U9@Qq-LIu@!ToRr8nGEYVOG8g|k?~sYO|1C0UH|0+#@u
z)P?)e=>4d4Kgw(Fma%b3;4XZpC;FWpNpsXkr50rv(TYXy!*~(9J`vwI%@$r1xeFmV
z9MxzHMg=e$gCVK5M#qJCDtwVka#Czr&@8D)MB;eODlH~BY$qF7jf<z|Vqwh`3Wqhi
z#t!ypbXI-!us3gOjs^}Z(kyaq5StV(aZMSvRGjCea40TlHV|KzOzT5oS+I?<WGF6e
z1J#EfS^oX2y_ZtrMQI@v7WPI%;fo<Tno5p^=3p!LN@94gEF>280=7324@psu7s4rC
z80QwEu{{e*91u9zLOGS>a6k9-{wF5(?*oc9$VD#k+(ki53URJ=EGNkzeO!D7^uz92
z`Uf1^47#@ib$Hj<Rkjc+yN5EzZ@W5H(z$fublEkSIkpM3uGOwWpm<#E9xHe3$(*S8
z28!LPZ|C}H)wk!y0o6O1nc8GsD>J#7{9A?HWp*TUbi>(^dHJ^6pO1XRf=I@(GMXFB
zPvxJx?)kjuYR^sPsmx28zV5<s;r!RWomqOr;V-bNV|&HfS?E`tJGM*&JF;OQW|AGL
zT9C`1Ppi(yx2z_1d)0(&-g^$@bg#UYdoBNJVOI5zl-bc+>@Jnvb^XxiC$63-v(IEn
z7{_*&0;8&96oi+$gQ_!#rSAmkbqvJs#Pa<2807Kk%N<;wRJ)%kcT8k0n}MEBm@7>2
zz<Q({csk48_I0iuT|HVjP)w`6PnCU7XKfW{NB(#&l{Hm7-G$?-XM5JVS?AhcoK}1H
zm3`yDMccDWh4I|4Rk|NoX;=P$O7~^08@}P3t@<SL@2XB9n<qb|(nA%-lRvLA!=R~c
z+Xmy#PpZt|mYK8-fud%%${^OAAIVK;j@+g!?;m^jSoUmwBKKzD)lbe{IadsS7X37O
zYsUd~$ANPHvwx)y-i7T(BKD197p}0!6T6|(ETSMUipel|+D5^zKrQ}&1G0t`G+&P}
z8XN#L;|_&rOK(OSmb6(hE0zeEw#rzpUKA^yA0iDxA;Civ^Q{`xdG4E|9lbHfL&lp7
zpUsmB`G^_X)0;E2r#EJRcch($jp*zl^oD%UkOH1|mTt_!Q@jbHo%)O3`u>RcLf_F}
zBJ4SXRI3+Ff;+qv5*H+m!JzI2q@YQou-DYxfo7?B=OEqgkm#~BbKMbRC(MByjhcfe
zM519j!`X@Z0nxneoX%mO9D`5#15_DQb)v4pwZv+o_+q(p$GZ7*<|=bz-!(QnkvURv
zbmS*W_P)&FP3p1YVU-G2Xm^EXD|8oJAplk!IY<8V2d;;KaMQYO(E}<yP<X3M4}U*q
zUtw}ge%}Wmz6G>ZJiQfvVC~%MxkBip*DD@x#q0amcCXnYPQU`f@HGmAAhqlAPdEUO
z>kw%OlhXtQyd+PhO}sfxwFD^jfVeRl0Nw&upca^-NNcc*xAK9)Td&jC>IbbwYMb!e
zxLOgaB@D&8^+3@j*01G%BQaw7QS#b__W1IfeuzAU;%y(BTeSSynvLDm_xp!h(}Dxz
zpKXeb*zPaHkFqI&ljEOl`aiZQ_&jV=p81$cn`0<#QOxs@Fg{p}zb=sS??UK2>_pm{
zrklS76q>i|fd|by>MdJuo%Pm*Tf@f^2u9Q>7R5RVln=)sIklWcLH9}VAmAeIyn`L+
zofmM0|K#Y;u||a#`B0D)t<a-cc;W3>SO}W+7ZwsaoOwag&`}3)HUUWmq%O6<%vQ@)
zAkhg@nq3wonG1&?+uGNPjJG0Bwjxi7uV6i<aHYq6cv0dsR6$xZL;46gl@;<!K9+>U
z1*&?!$tOi8=ESCjen>(j5x?C*o5tt?fSziJhcKB1<+yqV2Jrx`M+ST>p--bR4V@vS
z6$NQAE=!u}qOhddniTv)$cP?>YT-jbr?!hB-UMd+_DEmBwn7X+Bab(8V#DRm9NX~u
zGt(Qc4uIUA%<+3})IIPCdxb5A*89KcR)dGWoc(h8=FFS7W_WdmFD0a#0eQ2lZ|$Ac
zcZw%&&|i#w6(~J+=H@JSYj#eZohvQ8eY5M*=J1ZsdOz)5pZ{X?%jweC{p8_Go8G|M
z!PSFBX8qWWXld~IKP~<_{l|3ajqpt`ztO#I%kKy<_lExeiWE;@>Hp~{6S^|+(^1B-
z%+?I?tjCf$QGJ0#aEM;s=z08B&rY>x=hr>EbIz<OJF`jm7LFHVYTpw#f~Cn*>i928
zXI?LzkEmznN-?n{T~=dDRmf+EBP29O$<yQ(#?FxU5VD;mH@b$3ezj{PYt5T}<EYwD
z?^xB19Nx@HJ)R7*;u(CSEVYzgbJf~Cariy72uZs}8<2=2IL$O4li}}3Dk;g}GsJof
z|4Sh$r9{mHw^_flBEB%1y>|DwIrw{V73tH}E*d?VNb!qt;W;r1d^quteg{?6L=eO`
z$niJC{vGvg5Z3p5-tDQ9&l8i?0p#|qC^@A%h_NB$^{?$--Tmz_V0TT3bkw*Gk^O|F
z;`FY>bMdMP;0?QbWimHeH3JOkcxUh0`PK7PE5>NVxK{ddeN`LA807X=?HF<(3v-tR
d=<XDO2=-gYEJ1j;UN9loNZC31u3cZoe*nnZPf`E?

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_576804.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_576804.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ab105d88a68cb63065af0c10fa0dbd1900f8d234
GIT binary patch
literal 6365
zcmeGgTWlN0aqsv#zQmU(O4PeaBT=@Z#7^xvb`m4D{EBQ>c9B%7k^{v%zRZVwcd{+z
zSTjI?kWB!Q=!a+^Kxv>r<k~>|(T{w(Xn_Xk4-a%B;;I4yq95mrj@*9qtFuQQNh?&G
zrUjahEO5IsJF~O1v$wM|`xmR#grIzN{dZxT8=)^Sq83XX*d_^tRuO|3B8FybEip?d
zI2qT>Y6-*=QALhAwAL~ttBtBsT1bqheSc8PXy4P`u5->B7#)kE_LhNlkkRkbZ`h@u
z+NGalji8G$Xkm=+X=hE16`I~dvt|;p=7uhoCBkQZfagCa8(*6`f9!So;^ee!se#AO
zo<BZ06=+pe53Cyaw!egW6$xO%T8WY>)NC2zcAcKGKY^2Ma5`EzwM|(nBqGti3`m3D
z*}{*t+fhWP*m1kATguhKOYL9;lp#c0gSV5>q}+m8<zlpr8M|7fwD}E0TZj<UVJO<s
z02{y^U1JuH;843^c9+_J9KE%TP^w!bM7yY6)**z~EILG81MU{}4Y*S@sBo&MMZ0$P
z>rvMcb*VEq+i%ue9hvfqB<Mw{bAn#R2HY*0R5;c91YLSniT{NzeJyizHdmrTVwc#b
zS~b<*!rP^CG+W^9Uxov(YLyxgJ>mdfP0Ay>>yY~iGWvGN7z7z!aZs^|wJvFJ8AEQd
zKh^c&KeR~HfHlpk)xesT2HYuHRX8=&GIMuRYZVfQU?%r6{ITt<DQco#m9yDK`<k!{
zsjFA5MxZ6+)1Tw;A$ow%b4cY}){aLKK_4OO7-4CF_1R=nh{>h}E*awdaXP}t+E~&L
zb%2Rnk@bGgp9rzCE(o21tXpQeBrh8jZ2vx4SEG_bQZ~f>*CO%7xU6BXEyy}vNOG*K
z#Z$;8Hpa%;gg^^RzG0bqjlRfUj<E?@cQ(S%=VhDH&{N6K<h6y1Si<>5LALS&7hzaB
z4m`>E$I<ZPDE~Oh$o7`8F`lL8zt$7}S`RN<>Z6j20*q+I!jEALhn*>h&#7z-EOPX`
zUkHR{3WH%5OlQUr&t9hSA}#Z=WZ)8=p!vu$D;tx+AkPXs&Bz9RF-~J!8NqUNEE$Rf
zWQ{)%kg3`T*a?Ghg<cRi9=7O;Y!Vb6+#&00uxv=MS7{gy_73=CARgq^MNxPecrZT<
ziVi)g{OgU0t4Zz>zu*tB6JdYgl3xfX6XX66?Arv-1ttVGzAypUL@?&(!!*MNk_@|#
zUI<5?U09-lK*N3s$pnr2>7N`t@ZxhX07V|8gI5{)63Zpn7~MLS<^_<xk2?tJ;X8m|
zhyOH<9zBB`u2pN^TJV?cL+R5SHpfaTn<`9~ZG-7kTh7kak^D$uv^XPqpDjBl(ywp0
z+^Yxk2MdSSjAhrp^wgH!xoXTC3&VxEvVAOldb7ikKDl9c=Yqesf;f|9Wi&gQo65a%
z$N7o(miNBth4itl&K}JFdFNP$syICbUokFu_e;+Gcf<Gkr32?A=eg4KOldA6O-CeW
zq!e4MBD6%DARi(WuQjd{WX7;zwXM9FeKYrF+1kHu9g?g=zjc1>z3DAm_h!h7`|09R
zY5y^4<e20>b}w9-_Dd)HlG|TmVx{DDiMcMhuV+jfuzXM6Q}C7@Pp>;hB*(}d@)Of7
zQ`xaUqsQwX%a0Xi*7UG=m=G4L&+Btb#e<S(tZd(t(N#JexykIMjHcr3DNN>pX{)nq
z^+f(e;Xv`E)VrtLxi@31Q05GmJDvTdMD+tFWy>9ssJ@J$(%G9eR{N2APjv{{UAdWJ
zpX45wY~y#SPmf5?os?`RKl7E|n3vAXOSbv+sSU0E{ZsFr%KW^bDTHoV*F8ST<6C>`
zlhIqF>tioVV=tFIul!Z}D%^{3Vm!FQPLS)t6?Scb*4rQ71WKIpd-xMp!NW$OV`pIq
zJa`uxiD@ZAN-yd~Ly$~S0+y!~ky6GXxSdJx-9!{_h@GVw`|Lt*L_E9DHL4%ph2Drq
zMDhvqx2HGfZ%=Q|uX%#}_VlLw_VlKFt*B#kjOLF1wzFnM<;F48ZX6Ep>I3EO!S;WE
zU8PUk>NXSL`>y)A1zt8`P;mvkPXm4|>|bCNpCIdN{@7=1_v5q()7AX15evfpmzT96
zxH@<v%-V2!+yTI3S33uE94Lq2<NpX%8ddG6yLWXdzf^SO#p1<}XKv1{UA{S&Ih3BP
zSRA=SC3AoJ_=fhW;&Dmqt5Eg|Wvx&iI8XqrShAMf^ar+Y0eaS{0f`zYTrN|?F#a1b
z^NJ~J%02%9Ow$&0_Ey}(6{oA>>ip-AT{=DYBCI0-U!&lF7;nV(m+;d=_C%x*L#7A_
zmPtmN(lEM|wk1qymlWvX&?q6Th=Q$wGTzx8g)!WrZr2Z2i`3SGULOHzfpQpw+LjQu
zU5Jk*V*R0f8;L>9caqm8Yg9DU{3r56Eo1yh*P`VQ)~szD)ZfXPdYnZ4U{h?wcJCVB
z$)?0I{FOi0^nYwq@Ojv#jOin7N*6&8gy^D>GVUzuI}SV->_KP_b^-zxO0cPXBE^`M
zP=#VF_10Q%JL;_sx2lgN5R9l%Am}*)ln=)tJ=I@CKKnWDCBQk{$sLC3!BJe{w;|<<
zh9qy1@%u>506nsvVXs62tWT%hw~)}`%nLFxM;*Y41>_fywkV;SY^>!ekm&fdvRPnx
zfe!c~+j_ng+1HBfZ$)0<&R{)W$CVNp;&_mog33q9I!GTOr!qi($wU&6ctTarH<<*7
zZN=d?8t8|-gy--T?la0JB@(D*S`-ciXov|QIfPWKo`nHgBQTM;G8d#(s^XB>axA|X
z6L?v3iCvP7O-h?kqFbT1iznU&Wmx$5&tPvMo}iG^l|Hj+v!_pOcDmDNH*F4p?9TM*
zM|RXR@Ehw5Ytg^f|7nlpd+pxry|edc-d>+!q#33Z=kIq5Tb{nvck=HP&p-%1{#keF
zsSEdK>Gj!=G#e@{T)FSLx;6aF$Gtau*P@?}-aA_wf1Esgb<5SgdN_Z$Xj(gUH(VNg
z^-qg`PW>TOdMj|>#ccNc=%L%vZF)5H|5v0qeWU;Tqm2K?!1qTP)iMufh?kuD^qJ~W
z62VV&a?|_tx_3<Sj(zUko9)PGGBaCLZ{c(?BK19Y*H=1nUfTE5(uH4?=7Q3NP$|Nd
z_-j&R2~t;)m?WV&K~CcgRwOQvj}S6mBsV=nMYrS`$ry5)Us<X~)H@F0u*H==rv#Ng
zD>sc#oxYap%eGqkYz*Fr79p9JDHY;y7$<9@5doe^k_lb_$HCRZ`k%20KFP@%IMT|&
z<?w-#&9$>fhmtYo7E-3G#q89Pc#>I+v9EAp;KOfO{4J=e8iF9cK$gED>)%n|CSiEr
z`>wZ2P7p_l>HxAkSH!GX9aPXE1WyEe^LxJ<#^|;Nk(N3mL-Z5+N{4GDmW@?40B@S@
zD@U?NsycwHdeqgsI+vfT8Zbs7lWnCh+gCMW%mmqS)r=tva&>K60otA-5MlkwGD{Gy
RhetKYHd5{web=lk<==jdSjYeX

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_653084.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_653084.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..05922d65818b9028bc5aa7d69b5f65c356f13940
GIT binary patch
literal 6202
zcmeGgTWlN0aqmUmkw=jtMZGA?Qj^N2BU$k)NNgc-9Lts+KWe*3Al2!C<{l+V6e-`G
zV#_`P3=kk>5>z7kA-V_<1}G4xc2R%&(*;r_K!0?QTN76o5D@>kUv%XB^sBQ+9!WV=
z+yn)hk1TMzGdr`hv$MCeGy7MM$AzG9xj#(J1QGg*Aa?OofpwljXc=LIsRWv+wA2J;
z;q)vs!BR-3rY$-4&`OJGnVl9l_7My-&HH04X5VFRR0m8r1tcKs#+;0%eNCh|HtBb6
z($8<wPs;*mB*a84yvt3vYU^~pizeJOlHE0p#04rWJ|wD~GKE7YPQUiLbZ+#FDOSM4
zCr=+9JrQkG)d{Q&eCsi&myrgBtdwcmhUzV*ZdB=M-%~j08fR+*CtH_gLzvRNH>z``
z{SCYho1@<9NcUX<v?e>yz|YtDY)B92ErcJ_S77r2hIueuo2{*3bd#S$_fAqe)$I3}
zZn0;mw>O!Z+@RKK_hZ)9)s52am`itP0h^|`*|fvxt-m0Y?rhMf+3G3Xr?Xc$gvgro
zR-LQCow}n2`*o)c+w#+0PmxT6WZoVHl7$-Fsk>~rCat?cS~IJ6>+LmLgc^9;?3LGB
zy<HEHy{XCW(Sv#qnNe@lx!K6>jU#O>(?PwXBH<}BKRF(hN_Xg?bo+;2un4s1xZ;MM
zV1tzQy52UVGhjKlJvUfRtigWWQ-g!HJt(w*!j4l4`QaauvlOOG4r>c@vdP4gu}NEQ
zSTt!ZVY=p&)T9!bmEzcRM3hK!Qa0H{DuPYtY~*r$c7E36uE<JCRmeFuU2;O6m6MvJ
zEtp&k_%xHN3}WQVb0(*1DMb!%G5JH%Ir(BjPMX}wIF?SEUaOH#q$Wo%&z%FQ%;|Z}
z^r)H=$FejFJgEyC(W#B7x)H^uuVHLLR;3Hy>Y4ghk7|n5QK@+iMl@nm8!)U8pQR9Y
zVhYiDMY<5tqEjYMz$qEb<4DC~ssv_I<%<$oD4&!rBvR2C)np>ks40N?q(o{m9tD>9
zS&5j3iksBirUQDR$8;v;OA>H_)uItt!4{aS@4L#s-x$7>QfAb-NK_u4ibQ83+Egkz
z6q$q#8CI3(uqMyW4FfhDOGMNu3CqzGmUl~YQ}La13lb0{Ft?UUN~B+UVc(wTU)&26
zbE_1)gryl-Ny-VSajc|jAbq#;Jg7$eh59-CQ5p1j0JR2|J$X+dvg+&09J}xH*Re5z
z33;K=UpT+&+mSi)0B~pCS>TH=8J&ZxzM;%f!s5!i3P+1^qi6V5ztOYjwqS%_y|Zi8
zH<}qEBltXD7%cQ&pa0X<&#vAZ9yNwX@A{5pUc2AgzBK>ao+VG_SjiX29DU&NFTMC1
zDNEh=co*Nyy;%}lmyQ)ZM%$1f4wc$^EbtLSd3LU~1uF<gdv=x`C>W}sPR6ryo#9$s
zS?aNf{B6q}`HqqpD#TZI>^FM%8{+;_??446at^HZZmnV<=)gL|`dwMaV;2epmv`iM
z6y7L~ulk3x&if!~AU{y(D!yrS4X*l!vRug@EO7bfiq!89eR|}RBiCQJb<}w7!0NLj
zM&F3xAIUN$e^+5NKm08+(43{VP);cKqn0h@XOX*Q$(b7hYp{;@#@-n#@$PKAFle+4
z82mt~rQHHSSz+5+OIrouXki;HS`fbxIL@&Sn~4<S^b`nrkU|`f(g9Vp@me5s>*_AS
zwl5={nTC!h3#PiDYZDqxXlZBKp*wVEj85|!k!Ka1x5goz(rIvV)HJx{CrdpX*o0mS
z0yd#Dw%Z4K<I1WNVRmLaEWCA-(VRUxNnu*2pQ2%NdR@cj^ty)3Q{*?N*X1{-*X6T1
zhgr<rblmV)mQTU1okL+~<+4zSeI8oZ2Jw0i$wr0QMmLxQH+Cta%&De}fR=Ai!z}o(
zsmPpcISJEI@vkPE#PQj%(Cim$5J?>}sWFqCgiAmbV7{97Q-%RE1I>KV%RnKY`ZuUD
zsO&?cck!j%OG{^RBZa`nUDvvbyRP+QE@oaWiJt7m><gL0_t|HPhYdDd;(aCFQ{p?|
zya2E$=ES8lA9yzbLwz6bzqbE+>+fF4auwDOy|*YBeUI-o_};?BRlfhbG54Y?=UUqJ
z0ZiEx^oL5p{*pgX3bcLm^8n{4Z-=#Hjw`!hWl{KQ1>%ItLHrjS5=cX+G(?$c3NvXM
zvuOsRKDHr>sK&ar(Ewlv95O4i(@~7lYNTnh)lU@cyvg6F9>xZ#O^y#l%hutIu?-TN
z#A}ws>cRhSB*vH@B(GV7O*CY_k35~l!be<#mOoju_J3IW{e7+Ju=1myYzkIv_CWB1
zY)V;q=1(^L-`W&>9y$Bi^%0xq;s}BkZrXkTs+|GIB&#sw)XyPw9{d9YIK1YyS#%z|
zt<Z+YVzu>D+m>qUC9Uma;Tq;~g#tm+2v9y8g8a|{SF`VwvIlTwFRAuH_3$96$n%PI
zU7Kul9!J7-B{_3o`R#aA4s+J63ke*_svyg1tpX$+fiwhi4=dC&1uI{XAc28P+^xx~
zCPgEvEbVGUb~hq>8j-!qVWP(<soF?I;z#8ORAJuaAQ6Oo$qC6Jjwc~Yglf-jD_O)z
z(`luSdv+`2nFDB$xTp%b)Wd@5vNA16jbD*Xo}^k51RIe2L7G+3m!K5_gc#O*rmLpB
z3RBAJd_sdXY(`!%g*v54fYE7Dn?)Jppv(+>>X)#;5M}VlAIKbE^ZGJlkVj-ru6bJl
z^7%8z9{W&N@5i2No?_(smfKxM_|Tn+J16gs|N7oIHpcPFta`Uod(hFdd^LZyc>ETB
zd+5u~m1oZ0osjNLOd1oDD|2t(?YQ)yf8f*5C!y=px3}LpxiYko+<)mopmX^^{y@=n
zeeBlM%GOstpZ_BL=k&^3(Ypb>*7dVTL9x^IxbOe3Nb$_IEk7P*BG-C<Jj&RXc{EP#
z_d7Dj%Li!$Khe>(?q~0H?=ZS|{JncH*OFzj;}7^y;TXw`pT8Ae898n2{>94KU#*;v
z8D}R~;>wD8*@!QcA?2b*X=sknXXr-+J4-)CNH|BYb@Ua3M#r|SbBTFhEDI<!M1tf%
z=9Cp!g10ybKlZ~6RAG<uIy9!E@-AR{EA7q%yaUZc=5O*gq>$5NGShJlo<mYeRRc$&
zR73t>%1Je)kmn`MI>ZV&Jf^#H4yDOd0)K|AsVh-EKQf!b^9lK71p^;>qEi0|RhgkE
z>MJDv19|?5de$iCd)@DJm+5_!quh&p{zW~fm$wqEk7U||`N6OI0b6GfEmpWLQ>eYO
z)ERo@>7~4-mcU{nmnbs;uep7TBe{_>2QZ|-?V;uK`SWEb!Fc5IF81Vl$^yY$$QLNP
k2_&LG`#O=ceu_er=WB6-q5_W&GRV7awPpJ|ZfiOJ0q@Ks%K!iX

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_661704.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_661704.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7c413dc8bb8a0892b60250d92490e1aee25e8a29
GIT binary patch
literal 6809
zcmeGgTWlN0aqmSQd3=cvQKDqovIE<+ttfJwD30ws{D@@5kJxULT6J=zc}Iy7Map+n
zY{|!lE&_y10+2#KM56(s_NPj1pw35;e7Zn^2IvpZ5@O=&0s^8R_oJmE2Lbxi&K`Lb
zrBZg97HB@Qz}?R5?9R^4?#|B4pX_!kg7Qk!Z-#%@jL;VtF$z}&R!9P&86+Tqh@rts
zO$-t`PL5H7G=W57MCW4+t<(Z3(j&IDZ5R`%#_bVWpx>r%R0j;2ElA)5Mnog720Tm~
zw3|0*XE$gkMN7mgSl(s^t+f?e-$sKRiA1g@i*1q!+U{d9PHC3ICr%%EnLl^zjApBV
zM^BzUdhA5FsZLB2z!ZEdci=yRlAyv$86gd5wHAmQReGxF5k1LTPj_8UdX<*}DM)Ej
z=qU!FDQK#V@+cm~iCYA63bqVjkSFC8sFW{hHpU8ct$%afEUZCatrgc0k*uMO4#7?4
zMs>w0e;uzz$AVB?wZ1J$r@>Yr6tB^K6utg;khistQ=_#Luy)2+yW&<%HMmtV*Wea~
zHDF`CBlUY&72x6PGe)KYkC2H3nJmV9Ad|HQw<??g8{Ga2Ioj&va2q;Yt(9h_&Cq75
zy{@l!wT}To-*$XT45?C^6rZwb3b>|xioXig?`k6+ZR>b+z{r5op|98uoczGEV+un)
zr9IXB{xXfAhi?kZ&zchh=4pLVDA1|R&>iU1UV~c{M-BEj(xyU<w5;cc&`99l+l<v4
zS|iXT3Ytzy_*mb^_jbq_Gevhr<B=etF+y^3TnsuiG8xmX<5FTs3XSnmL8D`dkf1RU
zsFE5pB}xfdGwaxsdo@!?3dM&+jj2>*GNGBrLRX?=6Jr`BUK!UIIhl||jmFG1s~8i<
z#CVcVP6jt?>|y?#cqt~vHRfbg;7@B#z2Z+KhK^ksKZiM-o=9p=IVnX2k-x~xmEQJh
z!x#(#S=OM#Ytf5qQDF@lTRS$kc5LjTW~)w=m`L*S8f<tCCP>(9O88c5mhgncUkoL~
z!y1dhVG)#P2FZE6P}{{=B0S2+c{w^ILi5BJkCkKrmGQB}P&BMjp>SBUCL$4;*ZXR0
zWe98pnS4_-B`e*`aq%(_qd>pmPz*F%X~*2;%^=5?hnIi6+I=}8jmqPpu-H8u3Xg`8
z!-;rTXb3i^Tb9DzNpWnv8?f$3EF=%}f*4K+;$D7yIQsbbBo720HYJ&e^SGUV`stqD
zC-wnF+ssEU3;d`k#l;w3KbDu1z<sZ@4}`-;TmBmy!!&xZ6E%5e?9=u_Xx_CYef*xY
zDVNHo3TNh>o74SE4p(j{JCq-uZJp!Q&Vy?6!Fk7_bYIEaR*0(J9dn(kclRxe>e-(@
zvFK<@_uX^(@{yn0fsfUe+nL>&Kaqd#ru(;nj{*zUed!}hFjwnzYoVtQn{V2k9$50W
z7CH+TKKJg*u=niF+-up_O17r_@mag-?NV)BB}a2%lj_*MOcC}Siw44w_8nyta<&!@
zsg9k?X38F1p%{ntYb)aH*{$!N%?)M;-+R2wAq)4wf!y91|Fpkk1Ci&t)Q(=&*1Iv^
z6^eFSzh>7mvLK7|fem?lGrOjD70%C@=H1;H^F5b)#x!lpPtNwL{$2B~-5I9DI`dDd
zY)i&mV!6yj)|R1`eEykNr(Z3+H2a#`zGvRom9b))lpn~xrLr9v3XgeKWjAHai{7@Z
zrQD5tyUTkK=g6D0UFjqDXwy6W*ZT38XkicNLS?s?tnT~;)!GSav20zmdh?2E-L}k-
zmd8LX7F*7gHD%=7mF$(f&aJ9*>pZ*dD+|MzR$$wa<i|g3#w2VVrB?Wb;l-~NA3(Yn
zvINFz1}Wr7jkF2~1Rj@S6x5JP>QvJPR7$6s6<Q!hkHSeL2hh(5u&t}?YmmYyCdC|~
zMt9cwHJ%Y1!~k|P=>XElJVfd>+=vZl{iYm1!U&mSlUQeZQCPe_g#>R3Rt5U2*KW0s
z;Uo&==mpq>Cg@f3q^ez@TJ`bb1b8&);e9rs*Sx<C=#24JZ9uR2bqeu_`5V($=Wk43
zou7IH|HkxH{*CFY{AtB3m;~mg`G%*WV*)AEITU0o@3Msb@B9CRav$&Ief_P*Z%UA^
ze_!J8W?T+Q<FaPOpl(*>APo<}aA;iA?W;x!(J{?bdA)*`MpsVfs4>-t3O`ajaH~9F
z^bowavIS<YJtESRfN7pa2K@+7j>9L9=?1;*Kz3j5RQ6P%N40HAA1gV%xvSZ$g`VtB
z)BPn+%gll40|jaNc`(?VH-G8fLq)nJbEw2Qa{IIU3%*%)ZcnkL_YT)vq<f28Z;5l|
z4rCAH<pNpc+6spYXNuhB*<*9h-1^ZcZ+!g5?HARjUMg<uyTkPr>AoV@SK<P9xh*QU
zW%h@2{kMiciGLiweMWt{ulQL19j?Df_ZPYTMKJNt6uI{F(ItA@>`|2tmRMJbwU<~w
zn7LBN_77v%W50;sBJOnbWZ0ZD>nsopY~a=<=##T$ZTU0rIllquzsq)jg)Ll~XFGxQ
zLohC9&06z4?|}pjL3dlp*I9CVN*?c5JG_jkybIZ!=>h2}P<t4@S^@vFVmto|cOJrD
zA_Xy1ihxLo6zCKsFe$pud#=Vfwb1|wCa@cN1g4-!eUyaH;kqK2Z?ZS4wxy0MKE>;b
zZiz^RiqLg&NrT8t=UBC4--Kg?`d0j`>%;@JVk`d>e(-u&K49vk{9c<iwSFsYn)C?&
zd!2$78|5Uvl}-tqDf#}K;)D4=)G63JtW&}I0i9x^C}mQZ5y%CsFNTi=`JdegU4WfP
znZZx1<%kqk;B-%o6>QboUacL~+KFq!#)7xN3Ka_Yqz8fWei!5&OyEJdPD%R#m!8GH
zXW)1L1^mM~NZqT@=<tLP3X&3b@-&kmz8MXRK}Pq$AzsIEGz8jBRRBk#IF1B=0MD;k
zDiJ8eu;6BJNl{Mn;gBryJ@v@mdgRG^WS@lH18D&NYA(O@GN3_LV<0;Kp|Tm$2SPLs
z`33kvS^=jMgt&yYD&e#nv_nKHOW4^6S~RQfx9CB%^dctPae!Tots!r~>JAM!LHaZh
z92+u2=0XzXiC9wBs8MlJv#e4Y_&Y5+wUN^UPBVH7KKV1))-)=!$n8lFEIM83{zb1Z
zeR9#+1dz*}KK{UkT01_pU$@VO<~DuWss<0=9=v^W;rttS&kO2#p*SWlv?Q1O?K4-W
zug(tKVn6Nrtfjc^?7|>_cW_7@94d~#x!}LN)VclFZNF@r8~JqS?UTi>wdBsrOBKIr
z){1?e;^yc7F!9IK?^DIs!wVi^v32XR&(>mnu;u?R$n2Txo4z~3gsyjdcZ4xCvwWU-
z)@@1;lwTkb9HPF(z+-m<yVSt0&jWk1jtrGKzr?l`j?YHb_9t!yiw94udtWJ@{c-U^
zL_IrHj7mlMiW;3PgG)mkBcXbUJVP#H>@4{JA<H>((Z6NZr}}qf%z5fvTiJrzy2>tO
z^Q2Gd{$!Alj^RsYmtMga%T!78XwFLgcnq?A6OhQ!SOb!<Bd1X#(In))5^*^RrbDWP
zA*LUQaXBGr6kKZk>Pq<DXk6tA@<WN3@Db8yt;84X!Lfue5fh)2BG3<~Ddk_muS^jH
z@ddK|8QK4W+9Ab2vhM`01<K@egsHp*x!gG=tCTx2wiPEy_Dt{javNYP6e4YvUMEP@
z+_KE=Ae=a$IG8<HrT|{_1!gWxUnnyG<Ajbk7t6-VW{k1O>ddug+shV=S&_@Lf=93X
bgg}J-OWPnpc$QzFkaNepW9KzaU&FruSm~jw

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_684759.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_684759.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d28209f3f4fd6056a77060fc22134e5fdc5e9d6e
GIT binary patch
literal 6062
zcmeHLU2NOd6}}`TiljvS+p;A8#BG*D`E%{2-Lkqr%U_c;KT9&Su$PWdMaq^VOAbjl
zu}cjqP_)uoz%uq=1t?JMY3Wj+!GK|T%&-kBuon>y8iC6I1NBSxB-iQ7o^~!JN=hI%
zT`^#NC;{Gk&OPUTJooS1bNF|j=MX$Q-u>P5u^xoJz>M|qO=6QF5L!VZ5{WdLY}CXg
zVe;fGHEAP|M9i2tR@X)?l9Fx4^>7>JM5=px(k9y8vE68Pm~^m+MWR!*OK8U11%=+C
z-LXYGvqd{8v0xFKbcyUc_DQZaPVOBv=_HZlY+2-5AY!ij*pxE{d+5~J!><Szj-E4I
z4f4q8vqz4eN_3h^gDM5@W)R91q{2ito*B}j+O<gBXv%Zm$7qr*O<#wmt&L?-8q&Or
zz_j%JnqPC{7Li<pB?B5P$pu6z7gQZqFVSY{J5jEu;|q+X(XKVm6rr}*Zrk7!`;F#k
zbG;o{-8KfHd0M(5)nmbmgch*ckD%B802cRkAaxrzp?Njiq8%YTR?Vl`TXdgBx9E`O
zuxM+<x$t9<NkC?-UVzND=su0J=oVU}1FdssG>4}3Xc22<xoC&3-x_<n2HhxLvle#0
z)~og7FXno+V3P_y1|#wa#sFZ1wE@#^IPfOYz#^uCS~S=5!5?i1G=hsxEbG7yw(YVg
zje?nRS~CDM<7&|%jc?Jt)_4iDfMWC+8E=mJc;`=9NCuV4Bx8hO7uAJ1DdsdtHEnQn
za&}6N&k8Bgu%)wc(Xc0>QVsi}Bxe=FVRBE88FXBZXQm{>-l!b2@vEuX`B{UKuFe^D
zMa{}mY|vm12^XZxX(?maPp3rTtl=>$;Z%0&=+(IkSpV$2YPc0uPKlB*3p&|16oc>N
zrwvaht4Nn0mWzh3L!Oot0T8^8G))`+M_M{@vhynL<Z7y5cKRVsl(B=6@fk4K#JnuL
z5myt_27}3I31-QODS#C4SY2<Vvx!SWMo?0VlHpM1X9YYfEX<LR&Q7Hg1{F^v3_6=k
zDuQS*4Rx4tQhn2))rJb6k*)~s9(E-WPfG?1Kn)CK5RBROwa>p_9l4T~FDY~Jgfuc8
zPh5(t)7i|v_>`1UM-(|RqDr%KBfyO$({W{55T!&`l*WX)>D2zY1px#Ctc#k>2)JE%
z_D2VP_{>3&7(+txiYQ!?<cyRSI{ONW3g~0<DA<M_o$^=Ma(VP%2l540_+`EvU-fRw
zpSb7oE#->2^0`&dQ2zM3Ke)1Ud1rZ7WkQeaU-ggVU#SI$Dlt8{=XzWZj@&$<2cFNL
zT66pIFW>X^mgaxmU*Z9Tb1m&E?kb%sz3_?u)5yn>JKTZ%;dS1#G*O%=T`uok<#*<f
ztp~&9;qt}LgS!jNJ&?Ute68m4)!d=-e%-xmgCh9Yn!C3=pu2Z$*hzk8okpHec?ioK
z6d$WI$kS8G>F(_ttd0M{CPlls0{Os=z~<0$sOE|SR5h|kckjVidjYE&j_K|g2HS0d
zRl}wf(DrUpc0X63p?f&`5qFKN9K4=f?R%!c-}Cxc=w-UJP<dVtJ+<l`E!b;rU+HM^
zQh}=Z!{wvPBL&BLuy^Iy^0D%>mD753bTv3uU~7!CAeT-Qf2lJApvibj2X&^u;8+U|
z7uotK>e*92fSm4<qqr}B_@0e^@A%utp-+tqlxB7ANidn+zQ*}W7j<qJEM}hoi=DpG
zxXum1@Y!uJeAe}qleW{Fu$oB54oQX(2Fbm+2tkp+*RS<phiYEMzlU{SK^iq<Njhqg
z2m`l;jKs2>BS&kr=17t`M#XsMqcLVbq!AhkZjhJ(r~K&CzTUTxw=VT9<do(3w~)6k
zZH;`)_q)s6-|sGOf1i2`es_5rzq`DRZ`14$G&HYE0@mX~>!OhHn%+0B3_SZWvhDt2
z6nOXP_?%>(af5ES%oy8kYqWbA#36$?ZrG;4%_}TGw)~d-6mUkMn-h5sBq!lj{tQJP
z)xF5&SvpueSUOi6F9$vfUkg`8ul46I=YLXj@rBEUXY)ty*`BN%(QUCB<E=4#jS1n+
z&hSgFqN{Z7ea|-_LwA`$of#}&US)=%|JQKNC9cSoM&F0ebS3@KTF>xT!#+D*-wu}N
zPs(F3js(1|2k!gEarqZ)WeEO>97K#c0^&qcwB;z#p0jmC1I_rZ)f)(rhNECcU>Ztx
zMu=UaHPP`2bEA1=I#4^0Zxb5gS@Vb`Z5=UZm#EZ4Y#z^Vf|#Vf6&^%mk3Ob_)PIAg
z*+lk3dxw?Z&t_{<ztwEgW`6VioWd-2%g4UeoDw)s{C=O}jrl*EQ}B6sPDSoRTh5+B
z5L(!0tluuJGXNQ1lZM=P4?-7VB_Ir8+WE1@h)y#AVMJH6=9{&<S$lA8`B=D88L=UO
zP-Yw?AMArXkA`d3dqzG0{C(`D<!3PU5-#vvY+k*FEio^~;o8Mc*Pun|%~V2)+08rF
zaF|&VWKF&%f%5@K3n0xf12Thc<P(sM#B7FBl@wJ-#1%;x?PSI}nWsCM1M(qk$6;KU
z@g9!y<RehT7{d;U9V9*u$oj-o2GT+(AREM4pqP=}SQAezv_o#8$oLA6u?A<ROO14h
z!TFMqfz*%3`BF1g0=6L#Q?ur`46bE3WSz34%%@ewpe{)Z2HTc&2_^bWX}5UdRWN2A
zUga}bTZktZ<PYReu6exq<7>g5{OL814=Arcf8v1`g$F<4ukn@m^?_SqJ$C5!<n7aU
zCVp{uLewY3>a237PhAi7ue`PVR^{YP=GMN?`l?T!zcVS^ot)Aqr>b*r-U(e<AKvlX
z=x?IeXKwAfeY(2uVe#;l^+4asbIZ?Fxa-GnPFIIs{LB2`a(~KIUr*c#h-={|HhNrr
z+=FfZe?uzgt_^&5jEP?x{O%ZI&CJFG@nb)oKUsf?M6iioUW;tM8`-T#c7Gn(TXYww
z!o)fgEuW~Q^!}%A#;W6I^|7B;&;Pu7F{z)Qs;1<sa#c?))FCM%j*?IvBhQf=m^)8C
zK#09Su7$Q$di2oFf}=$J%2j7kbRQ0f1Nk#%Pzj#m1=!g4^H9Wi`2<w(AHhuB4Ns%q
zpN8Kx^N^eyj77=#^cd7kN`-$K*^Hus6Oo%?{m-O~l9ll<BGo*^GCn+pvvCfEscc&O
z7@41L#P7`bY*w64OE1WA(8Ir(lux0kQv^YLfn5JU{6A4Y<d!7!UgYgaoqUm?>x0Pa
zU($+NeF$^gP@rdJ@ABR+hk@Iq5b0`Yogq<gU#%~?!S@rMnme$RE~e`g&}&Zb(s*&a
zZU-8Wd!s8CmoL^Gm}3y<S?VwL*ICSQ$Q!6TG37#m-c5|Nd6GZ`|D|h^AOagNQOL7%
M)xGO&r#Ybi05vlZ00000

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_690508.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_690508.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3c6764df630aa8dfa608bc38eb821234f15163d9
GIT binary patch
literal 6625
zcmeGgTWlN0agWEx@o{{LdQk7gwnW*A632~YOLYQUmMz7WW2;RfRmp+o9YsnMDc_we
zOF05G5Flg|KqUGh8VC^jD|T%({&ax?b%6p6&>tS?M(WiC1Vlf|7acqO=ubO)e2A8*
zItc<aA6ejTXLe?1=4NkaXZEi&Z9>rge&x48XFWn+Vx-*Y67a}FAhe2D#1dgNS?q~P
zLd7+6<fN8B95JKHDNil-tcKIhSe_ii7)#b34`^BK``TNj36lmRVlAwWLo@aoGW5HQ
z8+I9|b{W@jM%GxH7O=3U_jQw|%9oqpN0Vj^;>;BrElY%#-ooaMDaPYx&YgIj89#Ym
zu@u3fv*(6Rp7B?kuLo8Vo=1aP>{Jn4TWm9$GPK>Z#H|uNW`72!ro!o{;shN#8%s#G
zTP0mFXB98DY)6xjWM77{vg{e-4hBHQ%22Iepgc3?s?t>JmmnmUWW~Bz%`*H-0E3Mc
zJL_07<`!*bRjjrw*NkHIRg$YcU1FAO(?pex&a#Z{{<f~7r$Ka=$H7l^<?$i(&Lf0k
zjgno`F6+QLhor+jwpVJD^cC1C8Om_1smiWez9pol@8H`Sc9(q+^MGAc$u47AKiFj|
z!?EUP*rJh|e;`|0sx;MDXQ^IlDSI{6TEz>&XJ-T6R{SqizOzkgklOG!#Tq1c335L}
zM#~Nv?I6P=wX2?i0H;c7U&fGIYK_%@^o<q)hkMzq((IBMbHaLC%D$AG5?zL49aY*J
zciIp0NU1~pM;dDF9EqIqJUwTo<>|4q2g;r!&=T_M$9TMrw{V1*F3(ZOP$b|b6dfxr
z&2wIxq7lQ2X`YWx^S(JI#436p?~6=xiZ&eeu|SO~x==)X`JiH$^IZweEzBvp0FXpQ
zx6JWTK{2Qp&~?RmBzI+A(FtOd=XeUVDkd(>&2bTt5tqE33U!<r=Prf0h@v|iVwrP_
zP3@R7(dm;{=Ep%id2T^eXhGydEXT|NPxRuGXz)o?coJn5d)3@9ComVE8VNo%A}Gev
zEYMZ~gWDj><Dksrc&Qlu3p{htC;Ed5g~1>Pp3+AH0fB*DD1M&hVmRubWg?6aTILjk
zurSA9&ltgrOgK6n@++jz?^mcI8#vyi3Q#{7+<sZHRPeCCDSELu$q?Zd8IYkEqhXd2
z{Jt;<2f@r`Us$2kDbWQ{=ma}Ep4I;SX5V6zpB3hPey%U*^UwOkU^LR}n}*fu6L^20
z$j#070oE4?`-C9Fa{egG9c1Q%p%><t7$7jPN@6s^;Bn@aBQO5!#eSeD?Mz^iWo9`(
z!iAaYxr`u!^n?6iFb{`3K@Wdu96jEL9IjP5O=o<0dq;fafz7cJOU5$i^S1W*=}p?U
zGLf7}UCJED(_QgljK7t9EA@8PD7(FRx@V2<mFeEw7e5Q$4Cd*>@!<z9_v+E~(Tp#<
z@5T}NxkGm@$<OuQosc_+^R83zGaFV%{L}+SeQM!1Eh!q*nJg>a$?nvd)Un&n&pbCh
z_f3c5CpPPvGM$;JFY0;{)P}{Kp=Hb7b!&a5RkrSXND_3{Mj6p*=&phu+1#m^Y~AzF
zK+<~)Br>`lTaeYRn)=Jkr0nj>)7@+Iewp5X`}k+0H%GzLga+o(^|{7w+0qTdb4^~^
z>c!G~Kza!S@jY0c`>_c*>sA}m4Vm^EgL2d1yrX~3F(5kz{&4({qrV@`J5D9^o50bN
z?#WEt(C3|f3B!ZB`qkm|aOOyMQEq-AU)Pr~u3H_ckz_PMt~;ADBeHXE!hmP(OYh6n
zXS?JkZ{FFHFsxJN1fM#Ulw_(ISSefTuuOSiyskNEEWCu=`wNGV*_tvWd*dfIY>k;C
zvTaZH${nxVH6Yst?gs8H$;aN1ZEwU+KhWwwIDPeWVm#HKd^a=x$(z^S%%1pk<od|k
zo_={xf4=p|-?T^J{Dl35V<g{%Uk&($!=Iw(IdOrH_#w_#S{*=Ymh>-(ZmUSr#%&Us
zsgSn;mcY_t+Fhs`Ox=Y>sx$R5-7a*kN;gP4NgvR}C=uJEHi=TDY9KozAi|@WYRgMJ
zY$YGtg-(`Z`Y!ZJ=C=!7SD8;dLw{}hw*K1mZT;jk<kzNe%dbt}mamlztez!q8*Y_y
z90JbGapa}Ow($9;9&$X6CR_i3wuP5r3&&}%wmN1<AOJ7=_<2DwVNeZ3f|rD&D(IW%
z)QAMJTRnBW##;ZODooLp;y#Y~3<xTo2-;~ltpuF>R$?yy3Sf$>R`eSN$`CxlSMZ9X
zf)!DYoS|{Ou4(o4^y^t7J(e(T)Hkorrf0LA=}4CQboTn}ozCl#M1TC`x~p+@AU%-b
z)2~7#vp7=yIde;VXjA)qc1YHG*D3otMXys0uzvwqu_P_2^B>y21=z4gwaHXl=2D*O
zg!%siGq0GErqoLxf|{D3vw7X!x$bnWyXwB#>(c29-N<5#kMjNSxqf&m4RWaBF8&I3
z2o#V+46^$e0lB<})y7Cx7t>bdPk6C+G*&NZN*Ol_RA=#c{dY9haGSbS+KE+CYh~Ve
z-)bZ>pslJ4a4xf>sS-=O{@X|lkl#xlWVkz9F|vFYd6Jejeyppq@+WUrocg`IsmFQy
zPd>#?tX0>4FP{>)rvJ&OKd?_B=3$?*rjNBTT?obWl5VDab%#}zTKUQf?lSfxGzBXW
zGeA~Txl@rS)~x0=6l*E<bg8$NdK>P`F&0i~iY-#~l3@@iAN4}*tcR1^KE@9K&L6|C
zpTleGHT=StGwMOEX#ESU&#NgGkb0K89P)EsothIu9g1s0s1Y3{0GCrx0YQaT%omNt
zk_zfDuU0XOoFFoOpTIFMRU-$hk(aBHL;M+R$65TUB%%Bmpk7MRL0t=Fp8;xJ7RqAY
z3d3sU%SL#do$wBIAOw|@z~gh?Yg9~X%AnSPJU;fJUga(^rScF8UP{d+*wCD+L@`w?
zhT@v%goUsuDC8`+q!_m;HBya6m0By`co&pjhDZ1u78UXh3OQZz(G8nDetM(M9Y4Ea
za{y#_#z!98QB&I|^ffx`yU}{LN%kJUH+k>u{fT$iCRllb&CLn-8^z6rmeu#t?`22t
zP<MMjZ_GV^;r=AEHaRU%PUq$?-)~sl?A-Th^Y!K%Gk3f1oz3+=N$y<SEM_oS(~Z-2
zg1Por|Ge;**q>s#cl`HV>_*db58akV)8mf+zaiQ4*IIu(#`vza{dkNid*<N;anz}g
zj}~6jAoz(+ZFu&qd3t0|&ljEpNo#^kOl(rknUQQrZh7&JH#c}rKKMrN!mn~u0r|po
zF2v`AD{^S503{f4QUl$v=Dg-1#x7_cBV-)cY&3La-Eu=$!jK|=Z7CR0b8o?pEUx&N
znoW9%F)z)J<4vV6UPUOjV*f%IZm|~NvO%HB5RW&FLe7LlxWS1=1QCJ;UrPLc!9|29
zk1xkWb=&fI&nV{N_G6~uuH`0DH5Su)YH%*fE`+&bd=U8X1)K0Ycoj&3AihMFe<1pw
zsAYpNeBin2DQE_WfkGRyJ6EKnRA|Ro2Z9@l1L*@_cLMf^L>fzxYe<9YJrB*#6Sj4;
zePu8?SReu3aC=s#(o+Q;!1$h_ZY7)y7YrDqkjb{vl58m$F=j$`R{_s1SdiZQ!PM2M
fM>JrM-X;)1e{Gp02-m~cNM!5ETf48C)$jQ)Ah~>G

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_720655.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_720655.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ce64a82dbb9749cb662235e35416d00e31c08f5f
GIT binary patch
literal 6403
zcmeGgTWlN0@s4*SkH_~zltjJj*cRo7632Piansb6Y{{1F$}ZYUb$XzACz3KB^4-a@
zlskY10z_;Ah(bR^qXDV_1tM1lqR)J$K+y&$5b!`FBCaYRAo_9pLq*O{KZ?#Cc_%ud
z;xs7Gd}M*!o!Ob4ot?d%o!P%Soiqj|nfycilO_!N3?X{aD1hw#8>(fD#aKLvO;lTa
z0@rX;ikKjAjKimNZhbVgtcfG19CaNvkR=-TPm(P8Cb?GQny|8F4x92c7;o99-?~pf
zwNJl^vrW>h?M-rmHdaT!iA~r|7-u*1aLnOh`y-^rWz}|e<jT2A%(cNW)lmfpMz0JE
zjzsI#v;Zps-|nBGUdBWmjYVb3RBh{P7GJB;WzSPMO$Mj8j+3mHR)r-@^2`IM^G{j7
z$|D+GQ<MQ3fId?8Nj}MiWU;1s*kXWT4YI#({ze;*OYXJWTIE0;Z-bvfa>wvGU0j9=
z2JnC|WHqs*92C7ei8bqb+A+CV^c(%S<k!axV6T4y8n@JG(a2)B<dMjEGlrqHN?yrq
zz%7!+fCG|MhxM7|)~84|fn-V_1(IzB+#=CBY)A{$Nek%f*=wa{DWtDVZmZ)B?(ygl
z@V22nGi0|vg+KHq{tl^0YDXGMtxx%b8tj@rtJI;dQErlgHF+J#%5qR@lbhcuk{HYr
zoVP<yXPt&E`a1Sni2z&Lb$MV*hXDs9rvZ01(pDm-LVJ>QXsTU@_F7$Y-Oe~RhlMSd
zdGtd+LT5FMt7cZ5o91HrAeBg@C&O;lBqmjQn$N`eNQz0YDw)hgSm@2D=0sY2{)B3Y
z@R4+kQ_b@npAl5+Bru?Uvj(W<D%F~b+)1QnQYyjSnO4n$nBh4done*cl3a>Qi;OrI
z?oz3<%r)*-l1r=R(FDs}QQca@jAUYicc!l)0as>3)hUR4g5{VL@MLa0iN>Eqg(p!~
z_0)|`3LJCeD?RbA^a!f0HVS4l!1x}>^2j~%=p3rH=nT)?h=|d+N+B@LfyJx>cZ)&m
za@<H}qBof|BP8ZI)smT<6c|<|BGD-D%%m7(9~)SUNoHb+s7h7Y!SeWRl>mKJYnq#7
zfI+ook}M-cBT49kQ4AtdnHiC}9Z3p87pT(x_2pkb>z~c=H-+g)l<SX2qBkRAJd-{a
ziNSXC3w*R+<Wkf9fb~x%BSM^ExoC#vPB7E)#PR7l1_%sngP2J(sGoW1#IrBH@B&cO
zE@pC;Wo~kOnoBbEV;MmN=_mLXKsj`$2>*n?FN-}sgn9kT&Lw9dQu1_Xhd15cML8!I
z#!Bw4?9jH$vlz?8^6`~cCD>PT9ocXlS6s&*@E_c{f2ZVnIeVcTXe%U?z~R*%C2(Zj
zrua`~N4A~r#qr#D{#M~=$$2<?ev@`A_U3x?Bl%Y!_&x~T4?Uz$X3v#f-t2`<Z!kae
zoA$gjJG>oeE%X$we;Vjppf(+@#S6I$Wrw%yYAzg8T!(iE+}XS33KlvP*P$J=$$7Y9
z!Q9PN)JgzKVeY29thk=pv60S$yM)C_FW`?|7%T{uP<FI|sA8y3arGftM?hAwHLSS8
zNLZgHtcHWMzForXrWXhp?r&P|Tk0!}uM#ES(FN;fAh>*f>3reT%B<3MycFnPux<JR
z%ZHW@75s(SdmSa;;RWlK%bOq0WmfR_$@j?LUwwb#y@^uyv+FM@-KQ1T=>?+fYb^{b
zzJse)#n-=J1smpUl_OZwk;-w*<In#*CufH?Ny}S9cZbT9y-fS_35D(gwQb#7v@bud
z(4C;QtqZiad-JChx_!q=*gC)jHt(W6XV0Ho9$p&W2=pp}-Vzo5!fr8Jc45ykz8O`>
z8S<^DLQX6SKG`Vfme8V&3j7_*n1oLmq&?s|aL8uaB3oHprho^H_)?L~l0~8<>ssx8
zlyS+lKi^tSf^3qkvJH)$G|9ARXeQA}U5G?L3ixfjkxyogh-M$U5gYA8Cv;!E51lmV
zrl-u`n7%iEWBT6w#8c!qrtisbOy84FN;cNa5)UkEzUsE&m_%H|!q&??at+nXNxPxY
zzC1!(7$)o8Y#O}fY=oZ{R2qSrYZ1aE+%ECRG^dic6WpxkX;e$qd57(demza3YCX${
z88MPn@gWr-fI9=+b<I=Hq^f?MjKQ5Fz@=XASNW5GtNun#ZV)H~@CiFmWwDA2YYHu2
zTDo+1G<#uTERUB1P1(^chj;N}?qYs+1z-8$dQZu5GCNof9^44_fv;PAY5m9Raw#~N
zy|U#GWJk&le|~J?Om<+CJg_pLkl`}rDO1ie)r?Lk<y>^+9Qm=g-QNIg-k>@as<Uvb
zMD@V<ufgn#bdJtH_clz^5cIW`n|jJVf7u`S;-KGbsq|tFclILxBCI+JpHYzI&{ppL
z1CA7AU$_h*xQw%eY=R(|V9hdF7cA9+ZDTY5tOX997Sc-CWPONTJKj(5S|3nrwWC`n
z75!OXD*Az*B<q6q1_=a<B-UKSH<36=d@Fekk`GNo;=hq6k*w`qbDfsoThrL}Z)Hsj
z3h%$SDKcWCcad*pQyeAU-`n(mY*X-g$fhj)E-9N6m~4^EQ%*F;lSO|Eg2#j-7<L_Y
zLbl43=+?O;inVLu4#hfZt+Up;YONc!x{rm+n_{aJi)1|mly{Cn8f<|J-E*0L8F2nI
zs!l=m=rvTK_a*J7SIOuM8ws1L`Jjd6ZYQE#*sR^vs#QzzAm#Jc0F)O&wgah>7C5T5
z>MafTHC+96krPBF8iBO#xq9S8J@R}#a+1G<^cX>v7MG%ElplpEOsQr_Qz479LJrG9
zw#y?sY8fq?<~8+^xgZgSJW1fubsx5=w3hi*vpWi<ehdUB{5ix}McG73ldsZ-vXD0O
zoG_CV1(mqT&8fCMiVX%DSzI;PXwj&RB97OA`8IsQ$FQFeaZs4gpS`%{_GE{)v|z*S
z1<2#e4nOu_t)0Jf-gB-*Ry#gyRl;XKn)qn+;rOpM##v>YEvAHrE#h`_`|=x0Z>(Hg
zr#?LPaZB;Q)rS+z#zah+h!v-AKWv`e?m6^++k0)RQy=zzG+I3NB)MmH+uySM%F-(<
z^y<)hyx8@lKh69_{-a!cJ^IkkZngekr^(SmKkokjE3z_nuj9L;OypkYcSjlBGCSk=
zX`dx~vGSS;a@p*Kt<W<Ykj94kJ`EksxfY0p@olQDFuamb+Mity7tdT#PW+^J^_Ru#
zlgiatF~JvwJ4#}%0_hVzXoBXvY0Ly+v4meWJ;pHGHPcpe_ezt}40&sw__d>A!`hBj
zJeb3uy{rY2VJCkT9U)8g!9jIb+v7=idzyhK1(nhv9-SDKm`aH75R*v@A~*}amInNk
zOA8quJ#C5Faplp0QSH^U$Hd@0<vylOS3PLdnN)_INpi39=vfTClL^0tszTs6{u$=@
z8|M5w*1m;X-wNFgRZOqomP#k)@hwU@snUh8Zj`qlT{`-C4`90lW^z=y=J5l#yX^8W
zCUeOO0q~aHvv?+VreX#d(&=E^^7W<b6)VChjCL=!=h`bagwc?h@7e*{{RNKU&d(ha
UIPTwhjlkT8ORnC#c1`*J0PpQij{pDw

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_721584.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_721584.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..471ee9304f9999dd753a84c21b240e6c140ae941
GIT binary patch
literal 6888
zcmeGgZEO?Cb=F?n>#y}^oWyoQAe3N|Tp)afuLA`LB#=<xxNB0lmGN$3CypJ~4v^fg
z<f~4)<a$yZwNgxlgpp1H%1PuWS0P<0RVvl}sP{}8YkQR<U8IWsat`{ZQl-9G$Bqf6
zwAV_#A2*42-h1=r&6_tfZ{C|P%w_|Ea%S?E!N1fX^fg9`#j*-KqX~rO5Q|tMj0Ord
zF+eD|YE(Ty5{M&)6*<MOg_>1y<gn>Q8pc?4W%?k=k{^)wS33;o^a%g4CRW3tVQU3B
z+E>tZub@+}psP4N=%i=$oPLmI4IgL*45ir`KR^RU72=E~y-X8?&-@gt(<kdYPoFt@
ziaCG$tZXWP$9m5kJAOJqm#M1*SPj2tr%7zcIGD3ghE+vqt!9b)tL-BF8ctP-(^AF>
zW2`R%66i@FmiVoLRWM-+tD1y`0~j<BZLC_f$Fa6bVaX!D5s8kn5vU@^S}mA|h<FLD
zv>86t++Uro=q!^}X?qZYxx`x)FK$EFeuAw?KZcUTrLCZ|OP~dEQUi0a2nJl^S&7vG
zAyi{Xa0!|sRj3lQMOdtX78Ax^tBa{PrXtTef-O~B)~mwC6l#YZC1aF;GW$47#1c@n
zb+H!RWn)xY)0z^eM^Ke!OO<BmeNBIFsehf|5bMjhT_vSTfKV^g740B81bZ1bxQ+D%
zxE*+36-QWS=Sn?5hZlN)NYO5o@03ctDvTp|UZdOkk&1i9nIt}LCXwJ2?5q~A^`sGW
z*dVB3hv|z}E#GCZpNvJi*ibgAd%ZniA2tXZhU+TPhwERa4mZ3^E84QS3Iv)!K3yM=
z57krbF@}nLWOXPq=p$qe8=n~ChE6_s^ows6C*SnhWK}#Y8^-wP5bqylLaa=NqkdM_
z3_=x`HIp14jmbI%+u1H_{k%Ui#L1dMrH+k{f`F*32}R=2tQ+-T4~+s%&0QapHL-Y<
z=VUVAkHvZHA7ld;=0>?loQY5PHp)~dbDp~r<|4ADH^ee$WQ$TUr=vs1uaBL_V$O`m
zWg2>iSdJM5p6KPEY<>ZkP35R;FUOd0jDrrgmuRwnl@z_a1_swamdCD{$0tnI2gZ5k
zvOgXO$`l5J9GFKJ<E}7RbJOK;G%&(Mm{@3%1M>JNgQu<sLong!P$(d){egh2jSddR
z7*?hV>|kaKrf~7XtQgQzI~M1e_*I!4^~XkJ{Z)S$=8K0=0nwl|76fYJg_^=+jPcx6
zS<7>=@o-$$VXo+SJhl-OZ+Kn#``c~TqWnl~%pc&|g8smWKOT%mTKz+?Ky5KT&=%)L
z$JzjE8w~qnL5Af5QI>0G#)6?Y#wHkOU|?b5(FlX-%-;4LyE}G4i@bpuyv8yk93SDr
zOnF}>76<9={60_*-zYIXY}5pLz6seJbLLrd%Ad71B)Y${*k;6OF?BX;*^oH7Oj~D$
zriYTjbgkstmZh5$CzhO^R7i3*-Q6fTo9FeCV_)L*5^YPI_{!!=j{nS?G=mU>X=dy6
z*5v8ro1fYrxbL~27<MI&E}Jbg{nP!)E2);Oxhc`L?5s^~OkG@bZkwWV?#6UPa_^eI
zzTlJgo|4?BrYuV)TaK<<Q4{9+CEAs$ljtog8kM;zuSJ%sq#)6aD>}7#b6$<~mOPED
zH7TEDY5e5!ozU&jJTbp7yXBB%IkcdYEGMSOubi&AuGy~Cu3LL=?ER$uPRH$ztfwXG
zY@O0$z22FAC;9eInJLwh$x}9Hrgob|Z^NTD<6#`n4an}CtDdb+xwE#-Q`#kmcZ$NI
zduDr5*YCQr&h1nBoW1sD=dG?AUFnXyA*pe1*4rW3J07)vzUQ+&3tJxVlRDqZ9=IUc
zFHGrjwC(4eie4S*kmPBD{t~@?zWtHvbM0r^hgTo#rNd{l9p|K-=Op^vN9ueVs%p-+
zBifcckz!~2By(e;3#^~)PU|J7PojNyPtH$BEk`8!$ikk--O|wu5`6*IhSYv|^8J%j
z?<5E3MrKFSO?O&vw=QnlFKybNbshKvdGHzR2*lUo4|bNk2Y<ZqkqxT>RrkR0Kq(S|
z27I3?G1RZX*Uce;7zV=nauH6ks1qqsFB*UYyT)}TUb;z#wd<My9f61<rs_dIAq3Tb
z)teNJf<`n6I)NHgiDm%}>t7yiEz)C&k-cC5+w1ru1gjEhm{|pB#qd<Ifkm{6Hn=}k
z|B@5zDLO=h=oHki<*O21Vs#vD#6l6wc<~^v1WUmUX%TFKU2wqNSp{)bwO|xXf|gaY
zBt(6-LJtB7>hs8_E!<c<w*FJR7*Fvk`7~u-SXbBry|O+6F7}$AAB)Kb3@R=q=F`G$
z6ZDU9g?mN=7f&F_<9J)v7F@mJbbK|H_Sf1l`~loUuXuX~q{|fc_6lUc9$)d^F_~aw
zL&1?NUf*0E<TJ8y)hiCctp%4?;i3RN@g*kH$}P5vF_+ijLD~LdJHA}j@vyR^zyp_C
zNls99y-ZX(o8UeuvB~9F@CA&G;aKWbcLv{q4dbZf%-@EVWAKap13n3qx1()s4?Oog
z61gSOJ#{_hPM^&gtuqIv58V90t=1c@UmBY-WK+i2lry>)jSZ5q;gjQcdT;lBY21+^
zcVvt^ayECOC+BQP^yVDiR4`+2N}O71-udA0y~7W8WSb8y*uHG;O#Wz&nPt*vpHwwH
zCK7$Q?!Mo9f9L(8ULv~^eaXJe<~<MT-0owGyH82GPi1%aN@RP6tWMc7-u7Hu`-91Q
zllKLQY)PC>wxmtVWMlf2L~hSf)*NNdQPnxhn4?@d%B_4oIjTNKIamMf-dxqDoYkGP
zJ8}-^-x}>2ZGH<fSrR?`ey~6Qex-tshT@?93IQc#%Y+EYl}JEJrD91@&1yulEJUo}
znpiCyr9vu$2FsJFlFKTMg;?FE)O{ESmoljpTw3vn4w7Z*M}-7Vk%;yGHzf|Lzm>cS
zuLO#Q>i<NZK(hLqnzDI+Z_UEO!S`EPQ%QHew<$JarKgK;Wm5t_seEtK|FKQM=V6<&
zhMT0Q2_aD{Xok&rj2BBW7&?Y7H6wHpRsx5GYfni6#Tu0WhGI>tbs?akSb7z=;JWBz
zA$TdaXa(ItX!*Dmo(i-O&{+HUHv#7l!RIM<pihtB4}KL=f*i<+$63EmRftx!EO#{&
z;2_??;vtE~i7q6*wp9Qpl8{tFZdnM2^{cT5cg06Sw86#V45Zi`v!fhoFGqHkBfI!Z
zSdVw{2M?$S<r#o{6n_*dSqIrY3mH9+18gPNXCq25#bdKVvJaVIjK>$hPY;n0&W)A)
zm+!*O=2E0o7DBP1QDq3(P|_Ek6$*K4OjeI@6S97-1&6YwP^1uh)F`c$0+0wWzX!kA
zV^~rMKqzE)Bzl%C*2KvrXH}wi$zlV@YEN`Ox1!qmTjm?)wEu41!&=GLxiGNM`=tNf
z#eP=mXEUR*CpGcqYVX{8v+t#Q=BbCRk83iG=bj8OivvT_z))uF>XYhg%Nw`c@!a;@
z9e%iVp*Pd|V)Mpp%Z{441G5Lx21tW~nGJ`3GyYrg*J9>U;E97>s@=3wWvVeeZ}|T!
zl0JK*?z^Lm|3>|HN138!R{Dwkc5R|3e?)~~6P;LcZ(ek7lib_>=x&*&r_@vZ%akY8
z4QaD?`@Ao6@Ql>{!_2uKXD$v(=Y}#NJ`=kxg(mWF0TahnP<5%!s#Y*|PW2oi{dv_=
zbwj#Js&1OnCDk99@_OWH&0CSlk?2!mNuQeUhmHL-0UrhOnF|M0TSzfvOQC)v43Bc-
z@U$XRMTo~oNLCMr;_!eKjl|;MKzJnwlC^Jfkyw<+FM@I95cBv1$;QHAWQL+)_8wBk
zFPuE;;AoT`4|8ww6TpXG6=RR!lUEZ2@ij9237P+lyzn5RqCRxL@6N0C5r^__WVO!-
z(?Z^ZF)wmd&9%(7d{YP5Gc{6~3S6Bk<f_Tlcyg|q70Xt_lA|3n;puQ*4e%1=3<swV
z<~0C=aF=K9;_St|4r3HDSZ2J_-n<@T24r>QjTkZ^hbwQ!5RGikXISF1%LF3K-<Spn
T!m)BhjVw)Bdh7c}Wp@7rZ$Sh?

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_735113.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_735113.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..414fb70210265fb8a451500c862d73304762fef9
GIT binary patch
literal 6510
zcmeGgTWlN0agTQ-kB{S<dQcBbwquF171efHIhN`Ke#(ku$5xwEs*(fEJ4%!(QocLc
zmU1j;AV9=AfGGGwG!P)lSCra7{OJM(>H-BCpg%lNjfAUP2#9{%ew2=#pMJERJ@QD}
zq2eS6(0pWp+nw2&ot>S%ot@b~GmI5Mxgq^#a?Ov>XBg3oMgioJhd^i<afl;gXsp;0
zV}ynqrpYmiKs+&}bL*p_<qSMEWv}WefgD-8KSFWT+tjTR*O-|z@@UFcW4vjbe)Bf{
z^fvvL+WiqLXMLL*vy@kCdmD{e4T!gvb+gS8LHh%&+8Nbybm;7{SJ;sg=Tv(UJU)E(
z_=%ygyGnHvz$AQ+{toprlE9?JGG)-AO3M+qO7x`r8JvbPr>BaOs>sqIj*wlqN^>Q>
zRlHcUr;3bZw@l3&5t;`|c?O^ClbyJSGt9$w0}S$#evVAmNfuoMN0s^Ot7fV3d&sT{
zLeht!T0hEdV_D+{$*Hr#O8k2NarDL`(4i6ZHDY~bk8INQmK$Yr8TQJw4krUudevGz
zAqT40JypGrB_+OE@3IA&Krc&4FRMO3=w;L4Wb-q0G04r|kuEJ&GkJ7dR$94UZqcop
zY^~z;Rd{p=cw6xwP+sQ_xk286*OY9K>q=1FGi0<pC8G^wG|6q6Wtftrws{QI$*sxy
zcfX(zaMaD)G@4tsV@}v_Mz^Kxl^r^qY_FQVPS?BA%B0+m?J76a+FhBPYN+t)&{RN&
zDy?n--Est)LqXFS0Uxvn_zX|zyz^9dG#&{Os*#iCX852(HApelIwK?|gwQk_<y2Eh
z2*oFOm5L=ooNA0fBdNxDUPy?lS;Gz<P>n?%gOpIs)1j-;>Dg(O<gd=CMo~%#Fc=G0
zt$d81=Hn78%>{R=^ig(%zZB!+s&P2Vv1e7M*04i~i4#|6MzDmlvy$o%B_Yc3>;<vN
z%#`qH7?Zf5K7md?iHc96oa(9?8{<Xx!k2m`ztkhDmeMGgtqe|9Ku*9ORKU(nwS;E{
z_CiPsPpUKqCwZ`$DG`Z?EVQK+*e}Eq;frjX6{GXKY8GdwS!^l`7><o4CZb`L428og
zU1WnTuxbLd1;h4SR_$dxCi1FDDh@Ko`712QP%ViV$BN-l41|MV_Hrnu(%O*3tR(IP
zJ=>mH{{33dm4t9noC$^bp2<-7Vn~`y#JfWiuzfwE5blxq>6sqDdLprqILUH+IKlA;
z*qO=b^D}cS5LnnYDG_IJKihlo$NTpm1d6(Yja=c_i@Xr$V{G+UR+K>c0ihT4Gs7qT
z3x3oTdfbWJ-eqQq$%gW-w$$nSPWNImoy?xgJ9nf8wixH)XnHhrDZ4MvbfivV{Ppzf
znP03}R?jGHhZX<fJkystx#0_BM-|_mRkz~nTAfq8hf+hE4tMI*eV0EIxxs*3t9`LE
z-I*E69J%fJIPg(m&H6&>*p{y`+nyc&)Yr8@Z`%D?MzKG);i${DD2_c3NrLIv)DfeB
z=_r_x)1OHyj@=K<B=cN>L>BL3J94-*oqnDjQ~VuyrgNRyt1x?SAN_dnqrp7WyI_EE
zOkJ*_Q?Yk~@LXe1aRjmSE|6ZrKztXL=YMQP9^Z2PQhj#EYQNIhn|B{tclRmozTX}F
z{orp0^X^j%rY+#;TI$M<uA1_mo(1!LU)}P_rIXngSFR{c&*yzT3ziLsJ99dnSRgk%
zjoH(R=eY$l9<^s_PquEQLum}=JzWdt4cfLKWKN}Jg>C{?+L`H9=m7Nln$niSe&pX<
zcmdfQ8FRWjb!^kwkbO~c?q0ciC#ZDvDbBvTk$ZE>kyjPxtEqwel<A#;YXb`-nM3I}
zvm@`ncJsBBV;>HDFtEP6SJ~a0Z#ncA>P5IT;Ur<lDAeN$yE~x~D%B+L(yR~<SBDT@
zAZWo$EBLi#BokBR@C7KPQWdmN+i+BZ72`G>r0!6YrfoPX;e}bIWMjmTq$RAIR%9Bl
z0m2tTHh_yqQ*cE*T`GFQ4Bv)cUd1-!jrtn4p_|Hd!!zcuO|Q&fn_iipe1`nm^oso2
z^oo45Y`Sf}RSJ&?B$Fd3NEa_Z0S8tO{tM;7e{iK;h<KlZhKd&tk}8E=v*wDxYisvU
z&{FfiG?tt_cJyp~c3QgzG*K!w0r!@OBha$96@CJk>aFGWjsxWseBwW$N}+-sF`mW2
z^kC-F_2JZs4X1B$K0Tjpzn)ADY<L@%4=)|gUbt~2HMHUKFI$(a*#kEmsneTwcji#e
z)|@)NMeSNSu28`Z+O<J58+1J!Wq=o*X=j$m(*fvQw5RQvbJv|;1FT=CTNS!Bdnr%1
zgRHN>Y>U>kHM9RZOj#53G;R3Xzu4t5nhJZ6-I*E`4#9fE@RbWhQpIEa4>$&p;1NlP
z?2`n<^9GJelAJL~RYg&F2cIgO367bTC&(yL9m`ickJ1><e4D;iI&M``YsKHC;~Sx>
zqHOx9sR7j_mX7|{kr*MrmAqP+3)YbQCh}y8v%F`l(((sumN!&$*Wc8dCLF#0U{h?w
zT2C+E%BBR)=YO#2cWhJedDy0$^*t(Sj3NkZj8l-+K3(*uC3w-;i_kdiMA8hQP5ISB
zra7Ay+|Zo8)H0>kQEHvI)qN~n$23=@m}GN5P~Po^4B7-&wCjxUQ@|f!FD)Fw(95{O
zFKybjty1AxE(8}f&JI))$6t<y`Jhp|mLcoJ=^&(w?h=4ADM)@Gxhe*bmSQ#qDOiwF
zZ4xg^Y&azH?EY%xKs9o(8hJr@1?w?{D=j|7ixP&R3eu_(a$Lyx%#Z|g(KuwsP?eHm
zE-pAQCpIngL)Ih;_^J<DRI3&`Xi1=O6q6ZHjxFVekp0qHOu<E`wP{pqS!c+*1zwzu
zNuo+#<mXgNg;FEhXway&LXJ0K(#!CPpTM?4$U!5IH#NBFbfpG1eg4$&rqd0O%ac0&
z*o7Kf-)C+zE1}hvyNycl=)JLf!)v2&u8(rcD3_ZS*BYd)`sU@gmfl(!yhGpZ{-hzd
z>-^dnyFNCdj7{WbF0a*J*=pbOVbcdqt5bJ7?+xd=pCq?m*@Cd9Z>ev^x;k)YGPmQU
zKhFLs`G;igjqsY6+icwV&~I<BK5qN}E3$I#X3O_Snb6JF?~gLNWgd<ahdrj$VBuv0
zf}iNrW?=Vvpi2pKeHz%8b}Wz!qg!-S_Vh|rY5vijV6OkHa^Th6`CsP7Bg*-STvW)3
zSC!~o0dgkdgaMk9hI5987&~uxjF4r-uvy=>;#cZB7R(v)*Y<)1HFXzU$nH&@(c;OV
zT{w?Vl&Sazp*oB0^D%hInuS*emDV8vM{p`R6_w!aCJ`4U@EJlW@c$Vf7ZZYZTm^hq
zR9o@bu@msX@)6QzDn|5l|8#<zjqyhW{IG_zQ1Jt(3M4@gpCS8S5%V|H3|YQ`ekX7(
zP%!iphYM}U<yn-|a-kh#JCWDFyl-jW=eq!VL?VN|$n`6tjc{%_yo<4PtUv<1X>%?1
zr~3;=fI(ti)AIPzc)^S@8d;r-&FSWX1!GoZvb{5YZTyi9ut(<!L@=M*#|Xmv@MRJ?
NJMxasYc_2O{{z5vY~%m{

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_739112.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_739112.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..891494ad0c0301742aecaa559fea55813403af24
GIT binary patch
literal 6288
zcmeGgTWlN0aqoB}j}(t@N~9i^<iwU}TXrocu@wtV;Mk7sN_K50O{6%v(7dBWnIe_D
zQ*0@B1p@>KSp*P;e24~uhWRKW*9PLxd?rAF2IvnDbYtS`0s<lwaKEV7=tsXgd*qR4
zhmM<|K=Y9W?sjHpc6N4lcXnp~!Z1z*<=faFXUidkzQKr5Tn*qJNg%X_IK&YtG+nQW
zX+p=zdCN3KAfA}h<rrP-HAnK)oFT<T;w<gk6BI|iM_q4lPTM&vkLJ9ljt!8rJ)+(I
zh<5rB?IiEu92}8wanARsX=ihW9q*y(4ifPlO<i0|MAUT`kAGTo9GN)t!mrr#$Ifc5
zI(T&Q%+X^LakHv6V70(^@AvRuLlT&<Ugk&xYSkQZy+K#JkKrVnoIVpL)skgEGLpT^
zfHe92vR`)N7LHto#R3>KQ356@Sm%cdN64P*4ULr`XHi0u!(id4rtD6Wlr|ed_RJ8H
z(G9iR5;v^PQMx3L!3v`XjP|4G^{+wSu<VtoWh?0KldZVMGm^uytqBKZy8$Z^lV0s?
zM92}djplsD$gTSO^=?|A8}y<ZdO3{oK`*BPD?N|Vg_L{Dx+uLSet%0J1Cl%CUc)v@
zpNThUaI|XR?Za!{)OMTPC2zx;DP3}?0finTqxT^h{UD=X?$+nWG$i#eV<;r|DV-lw
zDcFH>2d2YXxePnVL76dNWdLM^mOG%&plS5ZmgWW|TjT+Kr3c%sk!+a@8=S3ruDb;r
zkYNGCas*mJQQK(&Z}GeM49*yw%hX6Rorn^em6Mhh_^4YWrIhAe5Hd4DY@SVW8kNe#
zIL#IlV(A%PvnBwQH0v@iWJJxbV+TexYn@6;8O=T)yONw=oYyS;l?BZzN*RIIC@fra
z@+p3vPfM({6y2`TN7(cHTPZ%RStpYmdq(r<6+4lcId)~?JeF`~QPLPu5|SLx&I3>8
z;)CeygQ)l*%4uFx-;~I+7r)ao`<)h1b2WNp7A5Fm#%3SDI03sp0iQU{5nmM8i!mua
ztI-&o<-ur942ktQx-O<N@k?x)6_d-nX3HcJBFkxZadDo-c5;B#*i>dF8P_bacwD3F
z>|lSV&Z^HI*5+-^)x=>&noX*AV$%F&wk5-nNpY+gkEM9c0pc5yX}v2<3zjjNj-|xy
zp!&dL%fElK?{Y@CBre3_{Jz;({8CJs&7?<SGq9BVL?OOU;^!Ck0k$uZiixu<$Hy}q
zKgur5CigBZu|Qy938hS$#qI3D17rL5j{-&OXA_q>_7X3o`4nsJ%Zd_69~BOQe%M`$
z|A0-KMfZ0iUto<{Ws0$icOZN6j>os6<dx#til;w&ViRaxt6jx#>7*JNsrdG0PgR54
zN)a`<YyGSm+<S9O4UA_eHW|;#RDP=PR&h^-8Ok2taQm_^-tmSCi4PeN>2$3O=Z6au
zg<szAf7X4i`<C;m><gR0NO7=u;p^b89KGQR6&cmFqw4M~_NnfjTNZ*D+At6+$qdzO
z$P+3ks{6?;yM@_Nvmi&{z6-g%E3f2VDZE^qRzpJ-X81O<TV;0NIP%%4Yo{vA!5j(w
zn9g!|Sal79@Ny)ox}#Y7E|A{9K>RK&FLd9D{6T%X{p;gu<Y2{jC}-OYcYo}>>MV_|
zCo18mbIhG!=i2er<HfO(qV_yh2|k^3RNcP9$$Tbfsrn<uld6A5&c4~;dZsj~_Ux|&
zM}dp($SoB|^S@Q;K47Iig)x=x&Dl4CgLy~o01EA{9YPL&VM3(`s!o65g6bRuO&!}e
zoZiB?>g?aLl8ymT)XLPHi18MN@{`$PcPQKYC*D1gJ6|}If1~*F$FE*}wG{t!_LJG$
zJIB<WW0k&V|4JRc2g?n|=^{QiEOridee1)X^)&#znPE@E$$?|EC@lcVCh*dtkdA{B
zZWeq&)I$^4J8MWrbB*Am$pJtsB$0`>^j08ZQ>?O8wk1f#E@8QPk?j$vAqXL45}Y?N
zXV##>^S~JG=*=-6(cfaYbB>hB$BfXP-Ws7jy*UD0G3_*L25yg_H|2wd6!5gObaM=j
z;w%sdH7<Me)g<7vepkPwuv3jvW(S)FPkA{eEQp#DgSv+hqZW<A4psLQnyv1*qqHyv
z-GyiI?=b$2;~!o$&D!wM*gvx%N26xob`fcy8GcZB1~UfQ`J)p+!Jqgg{IaO#MqLAI
z>D6@UY^8H(z3a2yYrQvP*ZXsavd5|}U*S->qc?kWlX{|bRHdR-+6O18N=K@+8-Nve
z-d%XBg3(98a1JB4=>a%oC0~Vp;`=f83X^9Fu?igq`6k#=_4iamJ!`M6zE<*m_(s(q
zs0M=n+7YnYghMckIDE|lAxizs{1bKo<U)i3VYEU(KumI!V&SX`WeQ*#0duoA0GtiZ
zK|OFq33D)v*Ylym*>BL-8@tUUwM}?#oUa6B3RCftJydjwjkEdRNK9CMl)QGKKlT8Y
zA0khtILAj;la@bQv$>l3djC*s+Hm0fvrVxP+r3i!D4P;EdH&g^|6`ki&%-w5oF7q&
zHHj3PY@LII^5J5<%D|JrZiFttN+@=PZao{wG}oa=A2jD`)J&sxH);>A4IfJ&=uxNG
zWIMhRKNx}J)pj05y{Coe02iKz-(BoL@9GeK>Cx|GjfyXFu_!6np+&QC{M*SmAGHcN
zg*9EXcr*yz^h5{3w<x7`NW3Vq@fhS@`_0Ix8987^o-)bP#bcqu8TdtM%?imRWLS2{
zHo0UP(ir$PvQI88xG^U-B(y_HA`1Abjyg1_e&_3nmv9`D85~<S@-YYjXgwI<lJoj7
znzN}hB)9@EE~X?=vs~hrG)IeqpNEWqVW1u{gmr4Wu;EQ$#y5@l6)Ylz4K(rxvZppY
z-t38uU?@Ae;qd|F^=D7s_oB$QkD04XDYoACc|?sK`C|Hu$y-xz+@9jpDXu&(-U>^b
zUA=4XtiDq^b(8*l<g0M`iF3E6+1t}I>hw%`;q6;pmp2D@e%kX%&-&cw!(U96M;;^(
zUfv9Z*AA~9E;-jv+?*}<Kli7_KPz7<<=5l40^CMq`&P&mcHSTO|0_~Dd$sSUqfG4T
zwx5nNhGn*<h-dw_?5W!GB!W%!;zswAx4U<#-MhZ--jjFdEV-#ox~F)ulvI0vaWh&T
zKckNRx_s`n@`Z$YZl;_R%HkC@xm1G`hB!t-b(}m)Zei>kc^@Iid2*v`pcGQOhI00T
z<#(={1NDs5yvP;Ep4OwsC?mWC8ylV>^aNk?)a$(|cr03k6kekZNWk%$W|>P$@K%yZ
zixQ-8LL+Q{iBF3eL9@VV*3Yc)Cg$y^pFMU4-ZHKseYpBTqsQkn++vFVr7#D4IM)#W
z0Kb}rAc${}>u-qpJL=sa?C*EK+g&4{BgSjnkk`K==jB>I#s*Lzw6<q;&$oks-LoLl
zRp&ZF_7S$KC#Z8;0N!ByD;M$?YF2<DIS==($*XeBjxibmZ6ZHWb70Jgyn$K=hFr+z
gyvG1^Z-PJs^Q~)|AOc&@Taag{;vRmtL!ZWf0LCp_XaE2J

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_754689.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_754689.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dfc2d5b9650b1404a494d354b3c3f08a0c60249d
GIT binary patch
literal 6216
zcmeGgTWlLu_Rh;5kDsxfIB{MLEhKImLQ8>^7U;H3X+j^gSrsJ|My_X^*m3N1W<r}X
zBbgNv_JR~g`w>?{!hBJ-mFVvN@X1OmEz(LWd()-X(3K*QpYE4Kx<C81=Z-zLTU^Sb
zm6i{#H20o!&$;KG`#9&GGk<Y9IRvFQ{@d9=2SVRq#4L^)utgFGts(&lL;_7$TVk3p
zaB`lSrU@hxaYK$dwAu=!NXJbnO(cP8-5;d|`d#{ZjdR*6Fd~Y3ng-TD!SaxP>qGk4
zhxC)84Ro<Z9fIv$dYY@Rkb4(R+eswa>$*6Wh>-m*p8u3?JAC5wkyrT1u`{}(3LZUq
z`smn+NVBRIV5Q*OItTSCQeX?KB~F@9qZNqjHM-_`1SeVNY-{4A8?sDDMXKitAa#DP
z>Q!C1M<B1jVF3)9Xg-0`{EF2aCD10n9ck@NGq5H{qgCBAgi=RaU4R?R_1bE+jwV^H
zt^}dF>%0NQZHg5L)o1n}MQ{8LH12GY)N0*?>QU({3_^IVYMaW`;ZD_3hXbnBgv}Le
zU5}7Vf@Ibl1(I!bxKrg!xGpW&B(3>o)Rv~Ut3h*RT6Yt#*Iav}1>SCaW_8&;kKhkJ
zz~8HOs6ALiwM*?aHPt#)f33F{@0I3PyS4TY{y-z(_Fu6>PY0~nZj5VF9p*SSpgK)h
z>ub`)-_Y2ER7&kL&Y>e7F#8&<O2s=Hm<h#$Ce&!nm76<8pd}QtoRaYMx{GaR#^lwh
zSTY(SbVg8?7Q~QCCzXWGEl8;uDLl`|1f5Q#!h+63p;2_^iYTRI-D+S@@6|0~DV&@U
zb*9=_=fjs{^NaI3C0<_88Cgk5A_z=L*c^0DOo;PhQsI@QP`}O|<|oCA2{EZNCu0JC
zT6Y@_e<C$Ac6nhE3pu^0=uTOYVuHxe15fJ0{pjrdsC+*v=$@vr30dSXe5YsjJ3X?_
z)kdW*$hyshXB(g(VMirlTheWjMTx%<RwA=Hi@{kD_R5YSS-i;O#W^k{Qjs}6$;+`T
zqHdKJ=Xtz0HrOdXk(!A`bSfN)=$2G8D)WNQR@q_SN#!lwqEuO&N%0cj7{SPqa6;5=
zAgCsTHHN1a6}cbO+V=hB-{(dyrKCA|Asi7$X2X%WurixU4u@ypY(``$GNOp{3nPGy
zL=$0omKVfGN)Y$*3$w8&7nXP+@NgzdD#_!1{<&xNJv+J|D0)91y(I8+qLdU9eDhdd
zRzUh*X&)$uuY&wnxPxhQ?+MiATXn8D^Winmw)FTNciXa-)$(W7-2Lg}8(#nF;L2cr
zs4!IuKDp){NxxF|_ZLDX|E_D{l7Hmpc**xd`oy}cE&cMHwvOE5Z+dc05W+c@hq6Pt
z6S)^}cs~n%8ob5rOCQ;Ax|gT2Q@M-z-D}Rl^sx<pSAHOW{wx2^40{J?uVr5=JKD;w
zKz_L78r-A^=g_*VBi~zcJ+aA<&cTWWxdT<yN&(6ucY97Nxpr*YXy@Zwl*Pqm$a@|H
zItNw)Wk)xNDh79!TsyI>T_CI26)L$xSlCWOSPchhJGUst%VjM0T&S!2Bkn3!*ncg$
z*7;1vdB@{jwX9fjONAFofv46ydos)&f5+;vm1Fs53nxq6d)EAWGd9?P+*o!lf4I<f
z^%TsQp~~K_{MgD!VZ7uW&REO-fvl}EjM{fqo<eq4&YB%g9|0X~-rPiq?JINM+*FC{
z14V89>zpUIzr^)`p0?f!g&5~O4l&mEj=ys}GnpIBzL}r==-kzFg(IJge>{GB$7pHC
z=vwdozthie!LcF<Vj?7A&n00;C3Qg+!B4wcu*)-^`QO6@SVbxkHz`f+c`z-_qFFUo
zv#B<fnHz!|Lr$Py5dxuc0;$<mi)xLMnnS^|jG{X5T=0k!DhW=Mh=cQfun3gt79T>d
zKjsgi*Mo_N(3!e?@)7g5rZ?tqO>fLkJwkqKdP9C|dP6>~GAgIqZ&<F^o>u~?)FcX7
zPu<0S?=F5vjK@U6r+XJ4Lx^tni%IZvm%`ElxKj)o_AiGhcoSyB3!>o&bW7E_hMcXg
zO_MOD=3udN<v|*_VsNg8qtscWQ;5w=&tsJiK&8_&@M6eL0PpjI($kpeYvq@Y0A(CL
z`D>`ssNzAp_k4EX(*q@XC_R=L%}o{9vfY<c|7PD_q_-FC+smG|^mw_=o1R#AwB<&N
z_MY_7JM{L#(Gndhvz{{REVF?!YX@N2k#*$Gyzl-2VBj{}2L_qHxW*2^`0v5&%UqVr
z?Rg)jX$g9}%k2YYsC~WvdfdlYDnrQOPESbB!1^Na)eA%|RfGH|7z`vWga+}hMnIHH
z3baNEj7B#_EVbygJ{kbQ0tRQqk1C2b$G7;NJWvGd4fcA?Fq@<{JBZo{(~zTdQ^edN
zrZyzjoWKu}7^QxcycWrtp&|9($Wv*-_94@x<<GlWzaKwpH!V0){&`RFCbr5Zf7G55
zILrNcPyfez3O*0-sla_mYfKD+8<mOU_vwLR{yu@seHTLK;UsVn)X45tR<Ijk4l7i{
z9aeDGa96E$<JR=C@MyC_l>!0NL7;pv4B4s$9&*nqX%ukjIb7|B>h2+2;l$f`(seqr
zD1<{~HFL8F;#;wZ7-Ec<TDKa>7$j$HH2`NJkc>cbV}yLVt(wKaGaaIJyCTX89|=PO
zwx=1{+l)NjjO>%}V=PVJ%7`fOqNG=#3b8r^=_I6ER>(MoSQ1iFs2~%?8K{tyT$mGY
zE%ZYgBTM*c57~6ih#`z5OnM2Eo%I+3hZNE;@Hjk!&ehe0JXaFs#e^d3)SS4a+Zq%b
zaMpv1YGBc6P+LV8uLCo7Rq~f`q7YrM$m@f^!R<*OU-!4CPp-S$0P=X#<B&jf^?l^L
z>MVq>^?u$}3LXAp`iqmdrrx|gC6uOw;=FvTQ`rdgtiHYSc46Ws`}y#foyF~EZ%y;J
zr)NsjGsT6sZUruF3_S5k_s8AW;-3$Fak4mkKY8HNhOcw=z{-IFckTGi*<$}oe_H&r
z_D8MwM&y=HSnqmlv)$3j-P`v6SEO*}YVS`+nef%VpN=x-&TLK*&wDNDiOL}o!6kZm
zJ-FjGB%Q&XUj=t(T^TAfwZV4h#|yDi&r>%;#e=6ydtWV{eZ6=-S~@#Zj7dfLaw)b{
zfy9XzBcVA)o*_3ec9y({kZqD&4{R&6mjZ(sYmWN0qhdqd!w?)heCbn0C<&qatJr2N
z)&BvyyV^dPfS*E(kn!uR2}#&ubSfTG;Gan<DJ$SEq*@yAOED>@B>W>vG0auM2BX`n
zw#Uz;62hm*n67GQ?7{hzu$T~EltkdeKeOadpsG*=L41Q8UnA!~P!AXx$-WnSCs-k0
zAP!XekjJ~MX4OhR#<n3}`|9qM-QNxXwnZV*QRO;BK1R69F5hw@o2XC#uiHJ#2eSt&
z48V{ucXY3wUpZf~VvI$cd$}juQ?X%;Lmpqnjv)u~b!<5S+B!!d!uhRZnjn0ehbZJ8
MTyqV*V>cG^AF(GoIsgCw

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_802348.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_802348.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2c0906fc5ca67e1fade118342bb35d2668b6dcf9
GIT binary patch
literal 6976
zcmeGgTWk|o_KwG6kH^p0PMkOooGmRe5K>ZFB|zC00wpv+fvQykbYwi^N8%SVV?yXy
za#xjVx0T{(SBjA;;qFiAg0xh-()P0}t+bW)$8OkSO<5`0^22_ahW**EJ$LM}4K<}(
zRoZ^^N;CJId(S!d+%tF1<NnQRWe~JC7k(F6?L+8mjA%`r0c68KAhe1SzxSMP~A
zLdA7)a!yaw$EZ1qC+000d#mSkynf!+!ZnB^JCBF-oc?Y7wFcQ7%~3p>cWPX%o-;gR
z-1vxb`Vr$go(VCW>23X-xw%W`Z8T@mA>Pu|!@5NH&3Ezg#}w24nd1juW=|bFp;+qR
z)Y0Qp2WNtgmU_qlFbU5_0p6=f0yEazyiS8!Jx5$?%x4^rq0}`gyV@xAEm;~QBiV5Y
z5RHD`sLix`sR_>0O|S`QoEfL=lx<iRr@I6P17O%g#>J5tw`A7HIlV@2Mw#w5-8vi!
z*&Zg^*6wgTu2a_<cFOd$$!fQ7V_}Yv?M+&b<Z9|e$S!Ss3Z4A~H12Ja)X8Fm?2z@B
zD1`7{<t~|O!o9Mg343It25URc^gTwh4kXhW7f3cW;a-{1;HEThn>4q!pH?q-%U*3~
znf^A~o)(P;0c}72W=+`xkD>QIL_a9^$OBkIxlbO{G|lwL?#AdKwpGS0_h-7_|AQU@
zwfhpB37~MuW|gl?wrG5^N49EkW~fb*UQORtFO%|+`W<>Yom`om_qJ#?XnsJ0TD`V&
z&0+*vLVm+B0Uxis_^%6Vv<ewbg#3g;ane$X_uCbn6jPX#kPHifI2+{@eJmN^U^J;v
z(S-EOxI%?sL{g|rypR+Xql&?>As_@2VP2u?oiQG`7>%dn3dvtgDU>KB1zy1ao5Juh
zKF%j3R$B6JQt18cDgJznPbk#UD90XG>}to(B*O<UrcPl2$J3Hx6(u3c@oXGulII>o
zBM+kDgD9ss+IV9k&z}3%NaR~1qGD=r!D>w~(gHaFJ30aXQHm*;7T9wEDHu^`3`Tgc
zm>EMNf1bsAvz&`1g9~he6{DAU#VDrZEH;Y?jKs#0;b>4H1HqtTNQOcp%PDl79IUUC
zE+_`6PGU{)i)@R75`%#lub4nkLk6v~C)1L+3Doj^cl*z4V~a^)K}-dL{8%IqTnI>!
zWMVWBhEFpl3c)dnkEg}}8w<q(Vua=RV3Om<*;FLDBelfB1Ph-;N+wu5&Q3f%{>-ik
zm{B&dp+$~e;DrPqW7~OIQ3C1X!n2?p_RHeea1yiV{s`)Fty)*C#lV`wmz}=taJI0+
z_YKI^y}D&(OL3$$Tk-B#bB^6|j#r%He;ohQ#3vJL&b`@}tL{xDf5pA+YM|mCyD?pH
zJ)fPa8IawXed%^rPa*y5fr1s}GM43${77M@u<yF__uh}aH<?}810dh#Sf0(#7S0#9
zuUWTb58ZM16^DywzI1QR(YLMk<=6ACS1nyto2NKhv2D3W64sG*TTgMYVteWyrL%6q
zD|zaukpz@R_U=NaV%vPrq_;k~K^kmKPIupdobFZ6il=Jn2T^73){1Q_mbDFJmHYe^
zn;#3?stRl1AZ_agNjaIE;l2&^^<QBwGo{I^p|##;b5?96!-}D>RC>PRd3w#UGe_Na
z_pBaTIaGYEbhOgHbIm=TGp*aY3J3EG#r>te%g12F99ebt6%VeAm8L7s(VVgB9?qL;
zqo{jZZ5)|x1!I0RdjNJ|au%j5^k9{77G^8V5GZQew9YsRlNDwF^fV3DNJLrhGl(+2
zbNH>pxl@IS{2RqnS6;jPTIs+?(;rUX+B{L&Jh3)7`FH*94fxhb@ZcAAc><(eNWhLP
z2p+cCu+LX>hXHU>t4Jp1n^P^|4E%2yDr3kPGqkMhL?KhMK{kfSg%LPlx+CaUgp4}V
zg@`s9vNH|Hq92e&XH0m7kS@b;M8?eNG8PGItu~p#TZ0^gkagh6iTU>ZHE1|e^UaT#
zZ)Oyam~ZAnkC>;L@^z0{zw>-+{m%2P^~uM`?>yg<-+8_zUoV?vvuwF;xYkI82_%!J
zkl&al;D|8Ty}hb>Am5@8NTqne7soz0nh5*&ixT*sKrFW814qRR0g2~)=|of-m3UF|
ziP3N(Af*L<2cwF41!7m62NrR+ieu4QT*9!{cKc56KkHM&pzojA-}u12r};#X_koWO
zOA*nBl~4mgQ;ZtTH2y}9#ccN--j4a%Mr26GxBI5fKFHPzf+}NYwzDud0>L94Psi{!
z$5H}6DkLR!%Q$dIKG;}X^fzTgJbg$ZpRXx<3d?J6BM?tgz#%1lsborBqa~_Y6tr>d
z#s*T&qizj<4#*`EzzH8~N!8*c55`Zl85^>LU}VRud_qhLnyB4AtmuU(zvv5uU<<xr
zGM<X@QZ$)Rh1|ul_b$$8)U-yx#m8OzFZ%WEu{i;;b}=BNM1{ei8iPbX2`Nb=0G|s7
zBgIgU^?qw7FQp1oi2Vw27&43YFQyPv^#nj4hU7%pgH_oJFVPAwZ5wJY?83{qIz_`N
zm^p@-ylOP8ji8|?uAIJnx}x`HU(BA*jTXDAX74StuVVI<PFy9fK40EE`GtA1te-5K
zC#z=H^1l4OVxaiy7v|xzez<HNu9|JjlljSFSMkN-`J$;g4zb1Eot;^?Saaud&t<2o
zj;`!<wab}3a!3C}X{w_4S7}F;wpM9Rl{N#gY{^>+C*HGv572Xq9;(no#q(?QFz|l|
zW?p9UOkwAHuuMnL*<bA*uEN_j`0poOlmQH4v1gA6&w-7C@H87P!qkBAFL1L^trHn2
z)iMMWXgW@xAvr3eZ%elEIeDmY25{4A=_8|1dufIb)<camUZ<}$+<BW+eC8f%n)?sw
z+lsvog{CU85jwt)#1Q#|<S`Ga2dJtc`M=1M^_=Mgs!hwEt=Tl|53;5K7kNM16dQ5=
z$2y?|zM%Qpra!Vx!RKL{a?A(%3>8HggG|li@b*yC?hN75X&XXk;7i~XU9xLrGR>LQ
z<e26xjo#YmZH?ZJd(Fo}sz-D68A#`GP<?+CE?Nwb{yB~blYk2o__Z5ecVECSd`qV0
z0E#}C<^q0Q{kFlt@fV^&-cPBaT`{T`2ymg$)c|nm3>7p~<Z4NxnCkf$#CgA7G2?8J
z4F=%SU}rlr-i|!ej_eYSU_D;OFSX*qb&fCtFF&nNYMP@MAsgZ#M-s3d)%y}IA*kwO
zbHOzWRNkV1^8&v~VbpZ8es4hIiv<?47~w@sSVy^NT$QgdO=aO$M&QMCOcE7xfnQQg
ztr-(AHZzlYR?@4^c1lgo0PzYu;^*)^vk2-!rz?A8-R{U9UWZKL=(@cNAcr$M4drd$
z&=u=tYbkJb@YBAEfB$E5pB=q9`^K$Vt}@G&<KoR;>5gY$_05$xOGj?dpN@XsTYlo?
z%{lhgT(~k9E~hTs^eo;Pe(IzC5Bsmqe>(En(emhn)5D8*T)nG%R`!&btA}qy%A0=q
zm-JsVf6kQ825-8!^}b)+>$dbV_kI6=MM@_w5B_wN30xlf=_sRF=H4u^+iA!islA{>
zaEM-7_inxgS0di6UwXIaZ8<VGdx!2XPM4yUfv0cy%X^Pk#$PF)JY7B$s+<g$qe5A{
zScxvxAeSKy>YzKMJE6OWv6H&{2$@dl);+#bcg3?MXDpEKT52ZLKU#Ajiz|CfO(gv`
z;RODL4D~B4#a{1s#NY}u4VP33tw93*V-!79mJx-Vk4kXamrRHfxD26DJJhQde2*%r
zKdpd&8^v7z1KDsg#(j*`MeDyCy*HlZ(lLIYfbU@OU99+9c-2UPAihSHuaNa0Xy7Yk
zUMGz2c;E8YbO#7xPi+V}oXc`vu5D6LAHEdZzOwzBVT^8&NM~sf&gga#_NvXb9LvXQ
zB*5!t$MW9%-WmlkQ~*8wt7lfu)QlLT5o2E-$Pd&^7-NvbwP6Nm;}U@g>o=A;f^gk?
QfkgH#YqpWM%<3Ng3&1G#`2YX_

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_812012.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_812012.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e8dd2a3f07ddbcfb6b22d5f53331ca64eec677e8
GIT binary patch
literal 6904
zcmeGgTWlN0aqr0^k1z2d>SbAy<4Ck6D^?QNj^#Y<L{|KW?KY`Yr3adKlqgf8d`HEW
zd~BH@K*TrzDda;85TI&*s?-MR&wQppfd=Rg&oW}->H-2Hpm0B0Dsm8@Kke+1M^XxH
zr*47fBMaQ^%+BoG?Cjp`%>2pWupwysJindzYa>EmV#I8G8Q3HVgqDzqL?VVpOFc14
z7&tjajnV{?h)F|^IknV_q(o2Jw~k><r0S1HXpw%GzE++vYOx}b7a0jny6ebb?=x<>
z&p3CVaZ<8IY@+pDX4F<$q3vBX%9BXqE4tX{h@ky0R^yazeeuNUmtGal9Xq4jOW@Iy
zr;i>x5pJkalLeT9XY(e!mrw#sSZb4`2~~TMxK^eo8y><*RyaL1oOD%|38_eJQ0aLF
zp?Mgp%<`&U)rChyavrt}V9+P&6RD&>VKL{5bcMgM<|~{@ulA~YoJdsAdWYaTbFIAM
zWS~Y?y<<VB?h0>H!expT3DswgA4PBe1N3dKkyLN(1gxDg*RFb0wgNY+mI~aYawcr9
zcd~X5%L+Vredf$$%R_V`K_{#EJ<!Qkftyv{giUGxg&wUndU#A5R(rKkZ8fc#Y^&k*
zRe4MZc-!zPF||tWQ2pwTd61g)tAR39yQ}qNv~H8p4l`TSc4Ng3kQ4x!?eiG&t8K}~
z4>o879R7K5KU+==xToz+rNE|k({^A}M+I(DofSAx&zdSV*|c3ALX$1u9y3>OT8%(+
zD9E0Y@v**(|J!kM&OF^0osI+voe>jrGg8p0lZlvan~~$=a%f73iaH&OheVx;K$p;&
zc}b2dy2Zer9MIX29GV`Nbf(miiMVc=3SEv)%}(i*ba_T+ltf&XbQ%lSZBk5{lBN?v
zVlKE-=Ux=fNf%?%w9cH2io$8#Wpu)c`1rBQGv}~`)3XWPr6lC2C<*5UrNr$h4@|+N
z_<4N`I<Xa1wxXi$teG1V&Tqpfw&99yFZ0J|6Tn@IO>DtL8GB9{|Jb@UJSz+5Ly7Q&
z&S7vu0{dA&c>%B0em)itUl67RB|0y`@a&X;?PLY339<NiG^|sha9C&Kk%%IQI#*(c
zeIOHW>1?9JVwsjM2`~f98xF<5u%&S<N!bZHbUe8I^Y#8qaruHW6ADZH6QS^hP+}rJ
z-4_~%z3ErvaDPIYn&}6uKN1Tm6M`s(<DxVm%uGc0&CCfv5MWOd@o52%3kUZPJh6WO
zDEdwza!C{}Nb<B46KdxQN&=)0$WMWC*k>z$hf|nB_j*u+cgeBn$c0wj9jW7YTn(9I
zI+;7O>e`taT6elL<LUA2#B%eBpmh#vjf1PsBdJ#kzSdk+^L4LuYQDWUteW>w>cpC}
zA@#}~w?7;C&;fF6_DoN@Cwn6M>~+uYT0UvHWqT_1(jA8@Gm;+3Ud;8bI=WLYult&F
zow>0ue0vr+OnW2!M#0{YJ-+PFe0`d|ui$LV?a-W$Z%~Azd(A``($QUHk;|V=YR<<t
zER<vSCdD{y-`EiENOyg3HZz(Yy}GZ+BP)N;i9Eigz+#|a2bEX$Y3&C!`#~(XU2}G0
zxjk5}fq>keO^Wu|zTvhCvLdVNo*jApOM4dg<VIH5RZstd<&N94#4fVgx#a^|V9%<1
z?*dccT-m2Ju4%zi;P{2vw0(hE_Xn0<Uwl3H^70#6TkopBZ^4FXa&|cV3yo`Epzxe$
zG;YU&WzE-`wif%5e{XRB@y@Iz-3KP4+4qLt9>Q~?xn8h^#ywuJd9q`gtrOI@cCFdm
z*+I>=bAutR9bgu#J;SEi1toJiefhSlOLKLta=X5^G7P&3+m7S_eqk>rW9KM0!z&CI
zex>;VGJ=qHBM4E+$qK0ohy<ROWK>j_N*Yx5K2*w}T2xvjE*yoENDiZS2ym@c@fApA
zR93Y_s0%$6zWQG@^ii3I@)??`>=r(}+HK8@;Y7NIlbC!EXYIF%dTS}!Y>STd`M#|q
zSRq0txkP23R1VuvB_Ut~%fTL1!m#Q>ssSSG!=unEVdH(~v*smtA39T^6A$@*eR}o#
z_372`QxB0}pI((;pI((us}_+K+3S{T-jaO@q*CWlkSks2G7jAD{tMb&eE;0V$K)=)
z>4S9btuzfc&83h$qv$pa8V*?r(r|@Lgy3$b#ORdao^`f#=LN0xepW-G&Xlh=e6<N6
zt#t9x<8V<cR`_z|`jMXmO!wBi3SI)r5Io9<##K;sB8NY7Dt#)qU$gH>9V@tenJeil
zx&7&%r-lmNrlrG+hja4cbKvTEU-shrNAh&j!jS^+%p6J|%K4YMmEL^Qft&n+JbfU~
zA1Ltd%;EIm?8Wr6xgX!;yYh5bp6{w1{mD&!cb?vz=Xc{#5OVc!uJb0}nx|Xyd~1Pk
zxy`q0eETZjvHU^}D-3sNFxH^)yOw8f^1XSwH_!JP{8hr`n|yzs?$7i6YjC3+%=2xj
zqwDmp<)a!MEO71u=O}Oi@Tvf3TxnO1Smjz^Fk?^KvuCclz5^Jz&9#FE&s|*QIziS0
zFg{~T+p_zw!YAv3p4NiDv*7U-yuPoyeGFUNgY2%<u>3S^P8gm_gYdTGoBsx$0J3W$
z2`O2UfJBTG=_DmGNxCLDFQ-tI*#L+v_zWY#Q&FTg3B%`hTN5qUxoc&QQzI3h^=-}Y
zLZnJX=$f>rPU2@sEc?*!A~8Zel04fs^#CpT$^S$i+)mbynHnvBux7=qk7P~OC?Nb`
zQ?O#alE)+2l)#0UAI>R0nEykYg3rS?6>T5WNhXSttjbJ6sbPCFV?-z~?L}w|b|Ptk
z7_Cx*QaO<~qBKslmwQLKcb0n>?oA&HF$E`<C=l}w0_B4~C~L3~XSh$v&j2nT#IHl}
zy8AqS;S#42d+2m{RtyD68Haf~D@t!g!%~njB77(Z;4~fb_=Ylovs|2~Lezl2uUktQ
zF674$jPMCbNeJPPA_@Czk%3y|$y($o`8d{N7{4khh5Ra@K~86&_yB3R1*#KbbQ;PR
z@PeuZu2zWCGPbIWt9mdF8LuMakR)i;ZANrsB<S)BnC!sGdpU21vIJ*@Jvd&%pMm7t
z)ENpRvZTz$5{gb;kmhu2l~N}vYBH$xLZdMd`wl$H=di6QROFDyn;Kqoxl==HK7Z=u
znyUdIw<mS{o*Ol{|I+c1V>z_4<I`p>_~K`ypPjrl^0V6`qBbJtr<7YwiS<C+(v`(4
z%fmOgPy0S^%I`XRYgD*BI<Ae5=V#u!6}YtC`S@>If7QA&`DxE*C-Z$<$(@(hOVQV|
zZDr`jM1JRUf0+Ga^7qO7o8entajm&)!*6f0-Rt=OE3$m%qaEKLWkMgde}9xQEweE~
zJmX<g!^P)G1c&IAwU)<jx9rhc_I%OOn|3Zx3nS}XYwq}RRBL<UMle5kS{ryRfA**O
zv50ndJRg<w%4ID&SA>v;I7UMEGI@sFz}Q*x9zxc0<XWI(*{=n<7c5!oeS6W0TKkG_
zWcQ{{8S!M0kdMK^4m#x5@UO#`%1FAa)bEQyF>w|OMLK6fG7jW)YBHLDx>|f%Nr3B+
z%X!L=q-iBC>lFOd#;+^m|3>Fazo0N4kBOfk<Ey1Cgd3cSi?cE5SvdlHxC*NL8eT<;
zAc!xK{m;np7t{tN43c}V<?WUtd4yn#9mws;sA;v>iLowRgy~)E{c0Crn-n7LC9Yu-
zH8ySVdkGg#B?i-jMGD|Gf6LO?;#iRZ7#ECunOHhjv|x-wHdm%C-Bz?>%!b_FO+0&Z
af<T1hEBh!xcsHJ>kgI#u+4DAUtl{74D6L@t

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_83138.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_83138.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3258c79ca30c94a9b929f25c7d8d61c01c8e2303
GIT binary patch
literal 6185
zcmeGgTWlN0aqq$7@lEj|iPSqzV>7X$NPfk&>%1&WaxFQso4Qh+Txj0$AycG$N5!^$
zESMrd#3q0w^g}d|BFtBn+CW|O$6tjD6lj3{@G3VZt}Y-T`f<PL$o=U@(b*&KNV`;=
z8U>n<EO5IsJF~NMv%9l1`zMFPilE&2-LK*keuTcjh+Z@bAY1=}Y8CN_Cz5Eo+7i=*
zhLf|@G)*9Zn9;fQ(a`dwK+o74I%*(KHSdqoJpCSht;RKN=1l^caW@&yY}0Svrk~xW
z-y&F|R^Iv^J#97q&h{RfwvkA%8G6_+6CwLOtj2_DdG*A}*S^o49-dU~Rq*Ke$)m$3
zA}tMSG5}NXZ8@P{MHxb;&5$}&Z+YTcjh=0J3@2%DdKx(Cx-1>yN!fj^HdofmQ(0fe
zY|v;!ioZb$tJCYP?2Zu`18ugz*G<MOtqro8EV+zik4!I^5Ly6<h6ZhNo9x0pJh1>9
z2w>1U+n#ah)5`5S?@{#TZ-5qf%sd3lW76l5TV%$71G3qGy)vuAy8LYLF_KA;Y|%%7
zWUB!OWSb5f(mEQXHQB<lU+yq$*V(}9(f_>O0&gd_jv>42G5j5m@OR6tau?Q64$9rS
zrrB26SL^M@E0Fccomu~fzoijy`xb1_)3~O-x;{E2Q(zIhE)Oi?Fkr9jG~ibKKM8ah
zg_wzZc)N>ucgA!{3v_=X6%7%piO*b~6GAqX%p_IooS2S@;aM)ht4vr7r(%L?iYC+H
zjA~jC#I&TEHEhq2N<%NNnyNhJ+3=;r?EI`s376(nlaxt|La0Y&U*%2<7m`9sHH{~D
z?xgC{8tz0oHhgLBH0D1!pHZDsMojPmcTTD@J8JkWj7gtUA41~~qte4Dueuw@CI#u-
zfAqvv*CRZtwbqfIKi2@q8(?0<-bKU*Uu7fnA{Q6n?=2WQ7tTcDDwB>zC5~6k()=uk
zjbH(jaLIHm5mBjdBmxBC0*6guKbK5L&T}bFN-PMfxrTxH-%*)Nb$}x!T;%HGE$JlB
zNs(|;P%W6Efl?3X()-orpKlCYOpE8Gxo|`nh=(KR!<l$G)gO)tsmy>RMg}s%?A!og
z1JPtyigUaWN%O)GHy2MlKX;h}0tYLTNvAm6&%L;3aL<cCP<y!OMV>n^h$$h-H4f#Z
z3<w_*2SGRN{-j^P&dZ?(yO7(nl+9-glk2XY+~{4mXVtOdD1_JDy}7YXhihpnKec?J
zuzTIHGk2`)Y{`w>b^Dj2KX>HD?pp0jyYjo1Pb?p~?)i1_)8K9E-rQ@OPWMtQA6t$W
z18Z+7eTS6RL+j4NxskH3qmWR1JJ<RY-*Y!CiuYjd#HP2s(D}LdnMLzmnCVRZ%<>zB
zskJVpYro>(f3yA8xN>k(@lTfhorSF8-+iAVTKmfb`))dvfnkgsBeoFX93d9T%@*%!
z+e%xZXYF9=z=-nPh!Pkn2l`4+?^ObOfi<|VeBj8f9_7I67@5T5Jg107<^h8O9Uoh-
zT8jtQqU-JZ79Dqet*ggYjuj3Tvr5O_b>F^4i{7=rIIeUIuKR`-EgR03<*|IaNEW9)
zaVpN|7pbx*P#9A@-&wOLp20<P+1Ho1R07Div(kxd&Si7HKlj>Qnt6Zp-O<I<%LfY!
ziZ`S<LTjTp7L?tuD2`Wd9s6urIeJEMoGDG6{R{o(7OWByv8xdw7(t>JSFKQ~mg>%g
zZ5shUW)#e&-L#$HPgapk&KRURz!L#LvL+cdrIH$zk%{f8GIM?x>>u(t`Y9pPS@SlM
zC`}TZ!5V2rHpxs>lP{BS0}|jd$(cs|Ykc(>03<&N-G~gf8E@SA+t4ZfZUHNN_5980
z_4%9A>+@5Ok>8wNm*1RTmv5F?-o(?_nQM6SKp~J!okk(^gm&eKI5xY77w8_of$m`+
z8loHgsU-z2^I}+>lT<4PH6J2{D7Z)B;W<HbCMr{P(IHE-y(;bjnX0MkiCOHLIS^Ez
zLb3qeaFyZ<nA_XTZyf>3i||P}{?4I_6FK}#6Zwh4pknXJ4VPWMr7QU>g~9w!a-(Hi
z@Q$rlvGo>P6x)vCr9aySO7uX<Hn8Ci<i^V0_SHixhYA-~j(`WEcNE`P8!bJ(Poejh
zS$COrl-ag2YXf-6m3I}0bv6i{OZL2ddGZ6-*8tn@u-yvVUAVB$_JORgz-&v_ymfi-
z1DLWY=;<i?`^p|~+3WkqPM?XXJd5nE+;MRTOb~(3C=j1iPyXLwzd~|CWFg(i5)kW>
zJe{R@Q<iRslJHtTQg{Z=q!y9NDB2k3;w|w=;mz0CYqfLHAQkVWM~ZgJNtue$4Uuz`
z*jkfV^Alf3Vw8F!c@Q-|TB?5NzmX@?yyYWPgO=Y~(=h52S(DK+o^NdmR&174K9Nlc
zoH>5GPw~e5AKDar9=0iO{fN$*5-7{arWuE^`3*pSDuEpRIfTx_N@UGhwjqmWc^i(6
z;BL0pT1TyQ)>;>Cbsr0NHp^EjjBGv(ln?tMFJ<5!cTb4>0T&P8Y9CbhUd9zpv9-Hh
zr6covI7Es#;#V17cqb7NLMAPgRLxov2T5K_4Zt}O<VTPuX<?>zb%$uxmJy^37YR!O
zH`s^_H6nW&k-g$ktidp@jHtCLj#W*NfkIYhhV+zAq#%2R3X)cwuJS1n+f&3(CeRNl
zkR;-JKV(s@S_GjbX5#lS*@2U`T80MMYBjXr6SLKT!)oXZd9f%+^T~{)Qs;%ss-;e8
z5_+_2)MoL=4`EUq6HA}Lf<pYkB9AwBe8c6=jc)k-x$zBG3qWp9ZtQ^@1-d_WTy+$~
zYh5=3O6b*F)3?TNPrY?#idUxi(yVm5J+s-?xq4;gO7Zv&_GbTQ?WG;3ZclS}ren%<
ztTgw|?Y4`Xeb4-|<CBiHnVY+AjhFf#Cih*0%n1iEMJwbF@lwxAf0+Mc_V?M+n~~dI
zek1VIeZRfk`k?p!uSjw7YS%YMnef%_Z;mp$W$sTA-}NxL<CT|51e<7NBlz^4;Im5b
z+0TQ!^Ug(TacYz8D2x>oO6LnVLZ!nem7&*5r+!>I8&yulN(r$fT~ZR4E8tLwVG^2S
z<Rp0?W2eXm2w6^(8*RNsztXmI(Y#Fk%wDmej{b@p*}b_5Es_j5#N+rxG1UhJ)m3eu
zPr@71JiHmGtPY7dc2lXDL<Zhh(kUqe-a@P;0Y4B@Qd(3gIL+Fb74d;lZPl~K#o(Rf
zQ>0B-jq%yTvuS=lDI5{s20r`<CVc``g(3*z3uON*a{LW-Rv1LG?+4!vR>*$hEuzwk
z-zwz1T<O!$r;yjbx_f2!mpd@JMIq8&V|<&~LAc5`_tN3~;R*%thCjG^cI9lv1TaX2
zWFeVPR?HY<k=3=-neVJvFlI$=@0JaqtsfDHaC~W>CJ68Smnr1hx$fNcu1))ee*;zq
BGoJte

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_870175.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_870175.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..473ba90a57318efeab7938214412c437c99897f0
GIT binary patch
literal 6228
zcmeHLTWk~A89sBdJ-$1(6DQ6My4wYZgm7KhF4{%hLLfkasx&EdWIW>=zJ!?xknFfJ
z>PpzVD<xJR9Hf=j`?T4DS|0kqTdBHgSL%yLp^G)8Ql!lbeR2ruL!bJeu{|+aXX&C!
z-3N{|bN<UY|NQgMIsf_o`K#S-LD0UO{7rP#i_q7YX*6q{Sbc*)sE9bk5eYO=>xl_M
z<H;m7K@*54;+mbt)LPGxJRP?^FT)&1wU&ozj((rMQ=c$lA`y?`u5Zq7jNlBQcYjmQ
z88?udHjpzL$j!VZY~d_TK3VlBSl>qzHt^8a@Mgk3O$2ODusf$!^P#abhflKSkDgU+
zHS)-*Ge?e&g`7?98iA(ZT9x5mL=uF#*5YJ?TI)IDPF<gIzF;J&k92WVrcE+5tZ=lh
zaW~n(eynS<BSJ{JEY9epPTV!zse766G}&sg3}hrbXJDTGY_IH<?O4K*GcX=#u#{<U
zveIhN5VAvmVuz&1QEqS8J%TQM0d{;%c3OEu$WED_ftX+qWS4BvX`gJ=>5k_-?tFnw
z5^S3Exh|Q}X`gIv&<#H`T}{?nEN|H@cj<5HZ~6)?mU_Hh{~$U6^Zhuk`t!P9!baCR
z8$Gf|?#6GD@c`8+_h@fr*Z8)Y24vtvrcL%|+#mg!Mx0S@n}H;f>4h1+^|=&8%F>7k
zMBl2@TEsJbO|j|FUr8tAKG_rR(pjC5`{I6`(TRAEPU=J>DvbyeXc`4frv<#2pWq!9
zX$+mAhhnL4fKUybG(E}J<<)lsPL-4rs%270M}%OKjd7|WoJa>H)iA>gX;C$4-0oc}
z4N^`u28CcM!mEZ_XG#Wd#FA4<l}-kws7moSCRKwdr3D_$rUer`UbXNEKFOyfR+<j<
ztIQ$xJbyL8r&PnK7{{Jbom$6^r6WggOr8f*)R`$sb%>G><9Id+W76#9b$nEHKd(=u
zLswK+lPn?fFl)Ues(ROt(Po<K()49jC!=d5C*aH`(D-f4p(%mA9F#&)mBD0`hp3pu
zsU(Zv-3;+y6X{4Sq*B392o(HP7Qd|RGJX)7V#U}DuNu?gu*h;MQ<Fl_N$Hwulxj0g
zDgHVOhE#Jp!Lec}nBY}2meojW{b6h@bxk#;rzCb#62yLRZqv87fB$s&dRn+5P6k8#
za5NaY0-r3M8VW|>;|z;JXjtNtlf%FbhZ8|D%5r=t&GEa~$!Ki*<TMKk7CwrUPO(_d
z?%%g#=f1t5QTy5Ob&kEl3n@OqHqT{639RoD_JDJEEr@@DMVUp<UPo=7qP<|B4=%bk
zWk(-7+h#NQ%>3C!XMgtilA|p<^4Qfr7yh*!bQas}*8JAFvAK8dx_{^Y-2c$BCwq9=
z;hK%)BXiMGm(nq?=-8GWsd&5RV~Tgn!e+(0?Vefjyp<hWwmWCX^W$?@=LZ+<Te8QN
zy<PKzUwOCWn8%>GkiSr|watx|9Ex|lV%vVN^ZsdN=LyAjqT=W%cWqM~+g2#TK3Lhl
z2lsndDav8Vk<Tp1?JfEWzKX58;_#LI1Bzn+57@SZrv(&8V8uY%2dYNo^p(4Y6vxnt
ziL!5Br3`LM&iKrMJnhAS!od9af^pG3oHIT4b`(bnBgK=2lO^-Qh_Y$-qIXZu+$=UO
z_>@gM7QH)jW(d#RXg-~zDvUKJ0QpOW=>^W+H9xAjf4E>)+&gn7h(_LA4WRa|)j{Ox
zm^T%MvL`DR`<zv=bY~B1MoMPIi@jYqes5YCJg7JhK6q1cj6(2f<E`U2kLNDTg^J-q
zc>cmCmu_Er)Vo*d-MiTF=HKXjtMDz6;KR30e8b62z?n=n*H$zv`;dN8gS-tc4ITUz
z7C;fnR2&5B8%JOh8|X-^%NR3;4fK?zH^~Os7$!4}grBB0nbEA0aB>qeC8Kz=U-dC-
zcw_^;jzTujQ;ke46ECpeTEAw$wSLV$^#c2?^=tN9>(}hlvgs~;r;bRp^Tbd)PXvst
zp5T)uK(6J(00sFz8l2>{J+2ySi8NqtwK#+~VX|tdCr_L>+0<0BmR9Kqq<hf}1N0mw
z?8d`At@6n`pg9DW_y@RUQPqWf{$i{UD-nf6>F{TxpN=jBKOM{M&mOIKI*M-<-kLvK
zIFKD%g5AEqZ0*S&S*Bkr9Z~2&g>h9Fdxi1AW&&c?mbcBF{m{7)>3hWVDNNt|)kS7A
zO!^kiI%~;W=5~Gvwp)_!?n?XSfAzZzMqw|!LkKRt0nDgvmVd%hg<6Hk0JzK$0Dno2
z&QP2oLpK2n{6*F^04rn-7Ro5x41MtlwytreyUd;XmT0ot3P$4%M9Nf{Zh~Mfz_ezu
zzWx3ii(%@e?6rc!+7|yV_GFqfe{5*-@>MkT^-)Wh-!Ym-44YrY6bG@@Uxb&6DS=DM
zS26t`#}slNjwxsPn9dkt04-!g97@3Tt?@?$3i53TU4$=@F#)_-E7=*&ssRj!v(<Zh
zy?4}mC+-_LmOwJY)ig%gbO1CT4bez8o<{-KX<<L`PjHrgf)nVIgZPH4YVGh<>ChAx
zgwt0mtBf3fEf(Sf1`U0wCaqF}%BihR;4%bC5-1ilWTqXy0a~?6yeP4uAk;@Yo0(nB
z%<g7pk8lioFoJJ7(5snaR0C9bPzsr#9OPmts2br0#Ud^bxs-r^eF*qC1345IqJR(X
zfLXO@7(lCq1RMg@j_ag)i3BAeqk#i1maIVri|#YjqXI8ZB_vU$uJF^Uc}>#-J9KK=
zRsiB>@X!=o;+OD20YEUw?a7{4a=M`W@U~}9EjinOa=Ejk&s?ah?-ToNdnvfkd%sHw
z9C|SE;MBwMUpyM;lyR<{6d!g<%f6oCdxiH(C+;!#hraAAzjp571p8<rqD(}}lh+>l
zt}kzX<FoEhyBFg3w>~&k9(rEA`TDY_v-o!5?UDtcc(mOA?iW*k$^0=>z7%@s;g-67
zu+nbpv^?AN|97Nx_IB_0$C=>mzVDASjmWHw6F+hrvnQ$tNd${%WXb>fBd8Gl17G<E
z^Nt*q8((I+=SNF1rDw;zK>5HKW!I0(=YC$k7*@_j$}yoV-cVxGRj7lAqa<|4$g|`M
z=FXAN5Hg=9mwcN_?TT+p&NN4TV5^!@_YmM;n<sl(Ly`f9Fot)Ou~w?9&RV}c0l#gg
zpcq$~1|?wZrc&{k1V1&>DN%xKA=F^JDV1j7cM$yU`3avA(}GIDw$?VUfOn2+t!+X!
z0zW7|N7{31Xq`EbOmkBS{v81$TKoq}{5{;N6hRPQBirAR{U4|Y3S*MF<-h5#lKY7L
z)gI(>&&qkZ+Kah9TpbS<2A}o=w@M+>RvQHvjdW()Z}r~n{Z)UJ>>-R5t84Z^{y>!i
zda2!CyjZwcH2{t4ZtrX&pQxHJ#~_PywkO|HHDk_#T%M;^ps?vS&Ccox0ulD7wh4mp
StQ@3}bIYP*>rJcnR{sH$u`bvE

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_882682.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_882682.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cdb78fe3386548768d6f67ea903f6fb5936d2937
GIT binary patch
literal 6202
zcmeGgZEO=qcJ|BOwb!v@$N6#y$(0Kj5>i5oC`2u#1OhE^z^N!XdMo2uCr%tY>~0Ey
zwd6{b>a^7**8PY%RjMnURC@Gu{NyJm_0&rDC#!IWwZ}=3${+5RY3QH(b#K;Q+X1Is
ztCOxjI?~R(H}B1xH*a>{yf=UKcw7j|zW4qxIUPjkYl7ItQvud_3ZZ3$5vCGoyxdab
zl!enX%s5LSnVPcX*h9-Lre$_Y+}KAj%rx$gv6y|Ay;&JB?i7%Kup4tSn({S};@G6$
zxk*32Nk1(Mppg(0vG6W8?y9cS^)4EB(@1t#H4^8ku=tRua>^7Azj6At*QIkKXH2mS
z9yxjX$jBSfdR3jk%D}fCgL)ZhV90WrqHU<wV(Mmvp7uS1ldf_$*Kx8nSvG_z-Fve#
zSK434>##X$t&VixRY0q<19kj-jn9VkfZjy-F?|&_A7GdV)79Bp>P9#CIdty?rBjW5
zkEtemhFbeMQ<WRkn(cnf+Pb<?x)pQjHZ5S&^cI_T1ikeagwpMG`ZQWSrTcXDDu)nR
zlisXzRk&SuRAImFv|(F*y5kv=X^_m@qd>Ayh1+$P4OgXg)=6t*^-jIDYKu@EZ;QS1
zTC2C}A+k4B*<E^2?;<nm^*T2i*|~9~tz|l>x0NM4W9BEvgHq`>J(O<!@Jkkf7HwDE
z&=aha(puBohI9rj=eFkt%ZXLkuY0O+(6$GK=26&jN+Cb|LvohFl*wUjepWV_crrF&
z%MFVrttCv?tdg2gA~RAPn~sPQNlwTnn@B~l>70pNiO<Z<nA}xaNvR4s$EHh8$TM<M
zleBr0ivgcza^*pcd}Y?;R4t{*;VmYASUM+PO2|o*I~m8)Y13;p(i^FXkt?(3Kq_;3
zPBT5Kro^!<%>Ym8;zo3GBdTshvFWQDn~+uM;!{17PxYv#SQ(X?(_lnBHn{=A3h`MA
zaVMq_ol~TX5iL4t@&ufe!90#sET&3eCRM&9k%jU}>0%-komNdI5{;Sym`_TiCgM?G
znVXS_d8oKay=^+67kW%*Qobw!7g#MCffa0lxq7~<{QJ$p%PD1AosC50!O2K;I-*Uc
zk^_+m*pNY0i4JP=%<LdwgRw+Jos_T~O<{RRnw^aAo}HI~Ac48HR8k`S(*FHJ`}Pk3
z#oQ{zE@Nq0R+4f;svj$<8b}{fo(I*4zfiw`KPrPB_o3#%vM1-sM^=43ndA3;{u(w)
zFd--8d-E4oeLFKp9{}#mIrDtsC8NE6)i;niMp#@qSN>QbZgdUa>NUFd-WH6|t9SOS
z`bILNWCWk%^Zohm8*_iU_Sv<2gCoY^$X(yj%xm|XTbJg3+qLA$954C;nPU$;{-yoD
zk+Rf%k9YC>!ug`uymY+aF<J%;aiG}JWr2?v%Cmc|C0Ir{+OxalK*3NMbuyma>kQZA
z%2JO-<ZoGS%e587P(Hr0^MKKPzz`1<yZg#8k#lgZdus&)K?m0v*6+$X9=lK=xV$sB
zGyi5`Y}G%Qb>0U_eYw7TN8!BD(ZA{+$Z|!0Fwf<76{z1I{`BZ4M{n%Ab<EgxaCO_T
z(KBrLhqFx4-;p254L(H%nzPsvS`bRTsA)@S8*(=-ITr@N8m!~J(RW6RygM7u_Zv-p
z2H#g~YPCR6R@lDQ)KW$`TG$SY7Q}A_j&rQTW+H_+Jq1D@q!7oWv_TcEzZMAHy1I+7
z?aN4Krl8}=f~gMZ+Jr_ETH2X*=nmZ(qtm=b<XJ`Mt#L@FbQ+u-H3csD$x;gkHlbI8
zfKBL(?e>9Qzp~0in4R7M3vb?JG-r=aQkd51XK2`%UemBKy`~}a4Ec@eHTjL{HTkU0
zVHPu=J8t^R%co%1&Y`fgd|4>OJ`b&HgLu7%WTV1ty&Ft|8@n7)W>wQgK+89%VHW(?
zWMo#hoP_Bp`&W}q;`mHhX!MKKiKGsj)Tqf$z$KsxFkjXCDT9ESfkwXQWuTBx{Toyn
zRPrIwyZF+=OG{@KhVy}sJFa&W_FV7ET*|y!6g}BX*?pNK_u1zPM+`Px<b6fnQ{>y=
zya2E$E{IEKKJab=hI&3eaQ(oI=HI=N<;tuddT&uM`X1kH@ZI@Kt9<WwW9~)Qf@^8d
z2QXzr&>t!WdyD=+G0^hu&jXyJv;)?XIic)<l||vJ7Kjtd2k~EUNFWWN(hy~)Da@p4
z%%&NL`q;WCq7v&?M+1NzaLBC4PDe3HtCFV3RzFd&^K<@Y<uKMsZE$=bTDA^vjIEQ{
zAYQX1Ru2AuBQeJOAbE`<Y@#9aedOsZ7Cz$YwEW4M)&IlV@9%3(hm{}wWK*zWqX&W?
zWK+t@Gk>z_|JJ79^T^r9u8-I>7e^4Za8vdJQ1uKzCRu?Yr{0Co1@I3L;P9H)X3=@<
zwn7^oi<Q<>X`3pom$bHzg=?6{WeNmI!$A3P0P;fzT+O~y%3i>g7fAIYR1Xi4iaf7a
z*R{z;=WrxUmy<IGmfwy?<uGU6x{$z;tO~NM<_bX45lBNI_pm}eQ?T+C2@)8%#NC>#
zYEm?!%F>>CWT+n5TaUb;93gs)kgA1LBz{zmLKWss4iZ7gmz<Cs;&>9WM5y)-S;-<!
znocWq+&iR@XAYo2;-V_#QV$EJ%gVGQHGWk#d6H^L5Nts52WeJWUxJni5Mo&KnXanx
zDoiP>a|sR7uxWYT6l#<P0Y<w;Z4_mUfilzZsb9hVLX^QHe;{*W&FjmILLQMhx#n#K
z$mh=-f9yjY-5-0ddkT>oTW)t4;lp>v@0`3l_Un6N*cihrGwR)T?Lk}D^0nNx!iih_
z?SZe_SDrh2cU-zRK4FYctjxZBx9#$S-o8&mpM-8q-QIEM<jTNCa_{8_f%fHtxq}7Q
zjnP|^D_dXrV(!cIpVKREMehdiTF1{G1;uvP<DUP&B84;8xBPgNiCpjg@hD?k=Fu2+
z!0*VMC>^2^{6xprI=9{H+-Y>~{Cj8rLQ|H>jy>Q*`Qs!re*RW?W%#r)^oy0VzgoEv
zGtN$|#FZ8GiV>eLLCQsq(9j&E&(Mzuc9wpOkZ_J(YwIZljkfJs=MwY2SQ1cZfCR~b
z%qc6d1aEN&e(Z-CsKOrQb!bdS`CY*DmfPJ4cn6w;%-`f~NFk@kWTxU8Jcp!`ss@fk
zsf7H$l#^;oA<s*ib%+&mcuaTs97+?Z1pW+JQ<tN9et0H@=MwVE3I;y%M5X=_suDv{
z)YnM-2lD(Ab*)j(_d4I{EYUAgj#4-B`4{yCy|k5JJtWia&-H)P3)nh?XtB(7g+i_E
z#rDu6PdDW)HU$<F3yBf~@S5AVIJ_`i;sAyexHYtVA$OtVBp8oe-o>tku98477xD#4
lZUTuY(7I0Kte>I~<@rV&r>MZALk#k6Uv1j)j@w$!e*o)7Bmw{c

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_900175.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_900175.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1477a8b1ddc086308393e76fb1e4322077f362cf
GIT binary patch
literal 6510
zcmeGgTWlN0agTQ-kB{S<dQcBbwquF16~#_k*_P@Ae#(ku$5xwEs*(fEJ4%!(QocLc
zmU1j;AV9=AfGFfcG!P)lSCra7{OJM(>Y@c2pg%lNjfAUP2#9{%ew2=#pMJERJ@QD}
zq2eS6(0pWp+nw2&ot>S%ot@b~GmI5M`NQn5C)fN4eTEUeXcRymdI*G;5r;S;hQ^95
zF-B;(VVWGH2*eXpI=4O=TF$^zQ}(Kk63CIY`y&)by+z$DagCWdBafzBHO8B^={IlF
zPjAz2sofv3a@Mz~F-v*Hwztrj)qr?wSvT7p5wzdOs-00SM~BWHdzl?MaZa@t!Q;bc
zkDnL{yQ@?;0ZhX8@b6GBBMD4eEK>#@s<a$&vqVq2pTcP<b9$;csfsKe;t1Jwvou%I
zTg8htd!oolcFWYf5utgYlxOhCKG}(TIKw<_H^3k->F3B~on+BPa8#MUzG{{lzlZFa
zAS8Vls`aDXGL|)NkeoUzti-SPA4ji01RWYdUnAC6_Q)n(Z@E!6mtn6=>u@qqrB|)h
z6LO$>-BZ>3SW@Dv^)6eW3G}j*^s?&ngI+crPBuS97lYjV9qH0iHIqlTWu=wt<rdwl
z$<``fUxi19fVUO@0p)e>kQ?M3cumO$xvm7&Jw-;#6EfOBMw8s8S%xV|YMaMUo!pwN
zf9DGd0Y}}uO{2MGJLZJ_W^`N1UfH3;$@Z$*>vX*<txU@8*sgLzt=*N$sfG%#4owAg
zsM6{d&@D%xITSRV5%58~kI(Rg&O1+aN8^zop&B`9ZiWv!RD%>#tusPmLI_Q>QBF05
zgiw5fSE*Pc#Hq#zG?HqZ=Y@o*nl<eC1FEseV~`T6c{+48Iz2nBlKj;f)hJ2{0S05?
zs+EuN(|lZFrMcivl|IUj@RwqITs00yIrgmT)EaguF>&JR%m|inc2-gyq9jB)p1mLz
znVAwk4Pz1))W^`t$5HWdlv7<*V`IF?Uieba<d=Fx)lwP-vz5Wg3djlAg9_NWsh04p
zz+MPR;YpRo;3N+=GbJJsk%hLj0{ewnB7BjJvto3fSIy$=G>c7T0mHGe#6&c#lA&-|
zrHgE^1y)UfwqV$v%c{MM$3$K=NyS0tIDdr&8LA}_<5)2qih*zt%w7(~R9YL7n3cqx
zpl91t%fDakxsnhriZh`w-!mBsUkpi;iFkKt0=BP56v90cKRwd}SWhGt5+_-X4<|VO
z06Q}oeRgJ!1p*7(CMDu5?q?4@_uT&89|1+(!A7od>_uLP^D(x1EGtSN{eaL5`kCPq
z{{=s43O(vXZtpU)#AHKxS6k}zJ*RsynNDWU<()fH16z!9aWp-exs=_PXF5_RG5%Wm
zwam{~EURafw!@15aGvQ)o!syRvZIP`&#GJTb*;`R-h-*3O@}*m>YmG=iM-2zT&sPt
zGu@dP${e}n`8e=VV9okM>e!aAG25OU|J2vDKyTXpSw^uxv*D=AwkVE04@iRP*whiD
zf$1oikkg+@DvsR`%p~(nfkYPXBRg`qG@X8y9aH=rd8Tun*{d*nZyo)3@T0*z)4O1R
zaZFvVp;NJUg792pP;msY^e&KI!a#f%mgj$DMIPUB{Zf5)$7;XQ*qe7BTzB^=?!Mn1
z{oUYi2J`My3#KjL=vwN^j;@;Wo}LBsJzw4O$)%IoLn~L5rf2iMo(0Q>!<{*uPArfc
zp2qBH#q-R98IRhtv?p7)(xEg4^Pa8+^9F5O5HhFIvO+fjEA7nmDs%w)eNAagVL$Tk
zExdqij*L0oojSJZY{(u`oV!=9-VQ1qeTuX1PUP;Ka^w}o`ATZw9%Xua;M%~#NakSr
zjqJ$#uikid<=BS<9}KMT?p1d8=35T_g*pV6CY+>tTwzZqU>7MgLZzAnUYZr+;pz~=
z3j{5AX$8NwjAS%b4qt#$Dpf%XwGBrlSTSzHLFx`QY1)RP5?+{PN;XCeNm|0XX+@^-
z8e{_mFa)@G!xUT*PnL?FFvGW@mshdPc%#0CZRn;lop{Rpwds}lYtt+9lTVRfn_iJ$
zn_iJ`mQA<JH%s9Wfn;(71?l4DC*Z*9{(qs|{|~OT3lZ;A&`|N>K~kl#Yt~#5cx~<e
z30i9Ym&TH_$Bv$j&rWOCfF??%Cg9!@aRgfSw!)7AQ@yp^-f^Iuf=~P>R4G)jBgV5h
zm>$erx;~sbvElSB&Zp<I?bnm3femlN^5Lb!*$eL;Neykd{L9uQYxcmqj@0Q*yE}6*
zXKPL!-=cP{99O8|2JPCQnGL!gjxxZD&a^X2<mmu(F51)f%(?5%uL0Jt)2#~Kn!S{#
z+d<Y>V75hT+M3ya9j2@adYU%;?O*Kj7)^ye$nH!H3I}1mVfe}gBB|oB{s$ZbNbrax
zMD|Gn;&}r{B}vYhq^hDQyn{~^&ICtI%M)Z2sgC8VokwX5XTC+>EFHHhskP#7e0U8q
z8KJ78Z2F0*0o5dyj{et?7$Luvyjq!y=3c&uJelGw?-{GK{K1;#4J|tBZ)i;uj^2N;
zDK=uQr<ZSKQv&DnKiKp;wkh~LY*Wtq9+fmk5d=2IDadM{Ec(+DylCu2XdHGTX@=0I
z{OTdooJ|XEXwF`0nNsU0wNBjXJ{GQHnk!OFvbi59?{q^3ZGtP>bw>CJ;P<hY7LH)(
zC0yZ`HtpJ0sqicpf{Pkw2datVFGs_C(5MB8kagm85Yk0=3BZ{YBtMW`6$401F`I%E
zEJ&#~i5Dd{91?kUe>HNT8hO4Nc|mv?>oJ6@a#Sh|0~(}NBjmV{@tGkB=Av=Pj-e_g
z#avu);4#>=&<|OYDB!C;Xi=?N=%6Km!ck0SKsmOQ8$$L=YcT~Eoz|vNt!14d?-qD*
zHYSNGd6Az}Efq?QXrn=+)(Sb^fJraICw>Ck3LyuLJl@pcrqh)g*!1~R!<$YwKrT<}
z^dlE)Y<-`(!K{Q<TkbR}!J~J_?hdbwzOg>aDWhC&T3l<8w(6Ug-&}fgW$-qAr~8wJ
z+^+L$W9<6agfcdfo4LGJe`TwE&xcJPG_6kE>AX9f>wcWveq{^7n!csJ73=E2?aADZ
z7ymf>r{wRGx!1#MUT(8-=L5gJ!TPA}|F6i(xf?CtA7w%}TE9Qa=$3gfN*wl>QiFw;
z3<!RrQ=5U^>wzvM(Di9xU)r%iE{tx`P1(~cQKk90+reD_S>?bhx%0osjYpL86S=66
z6R#@KxdP-&#0dj5Ck^Ke4={G#@CYHxh+(t7ZN;zDcPyAQ<ge@n3u@{vxRBkOI-|vt
zLA!7spD0uD4MKGm+h=3&k~Isj3@WWd0*>HRaw;mp+f5=aO5ihuQsDnnJ}xE%?YIi~
ztf;o)v12FTf#oBl%~Xu&>Hg^iHyh)R2>4+QXQAQ;P!&jmAU;F(zar*us2Q?+1O0a3
zTA*O)Ck_|dkjt|ur{zLB#&#mFe|g{1zR!07_K-vddy(sxL>uAUu(=ld)BOb!;7xyE
zd3<TSU<4SyH~1D~=~%&xF&bH&i_Pigf(2t%WU{?Ier^1r4X}sj2}CfT+s6pP``{%K
OIXm)>&TBSp3I78+O>GVU

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_925215.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_925215.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4ee00bb27571109031416341a6a148ce7165df98
GIT binary patch
literal 6364
zcmeGgZEO_Bb$0hY_P)P;_W8S{-~${7Cm|+Kk~(0%AsCX#uG7_VyZ2$vcgOA;Fxiz3
zH4?rimCtG=A629{zd{O9sg$ZjiWDkUDN_G<Wg4t)qMj80p;D!DpsmzjeY1OCI7dmM
zO3jaqv^($3n|br*&Ad17&7T|&D}vG{|0?l=AVQyGq*`nh;NC_8p#{VumPny-y(Y#9
z4JW6laRY%kVp8K%9jezX$r&c?54K^9rJA?L46NaG!_~@waWjcHH0l2G_-YT<2z2k4
z>8$A??dFHH(+_F4aMqZWwKm9Pt7*aZIvTfwg!Za5<Bl03Y`=@eIjUNQ4<CEs5OZSh
zan-JadyX92v-fbcaXDt_O2K#UefTdR5!9@gNwNynYnHfLq08<^^dxINJq<k#bzW6S
zLX!IeAhrHp$tyW=3rk*r4Fwn^k$o&B`$a6RR#-!|zYWQOh8gH;k9sY+;)Ga3n;nvC
z#;cXp$}J7NnjITLa@G0<MOT$AOGv(I`yTY_XCQH_L`ZJQaKVTWUXA3Dj5WAbGS%Rq
zWUj(;Tf^+lbk$Z}wH%U2;7(UZ0(VOdZk4Q6SZ;p=$Mzb>4k;jaHuP>hC6#4Lol-}2
zm2yDxH}q~|0?<2vcd$AGmgx~AK!yiKz`U|wYTT2rIFA(inln{)Np5-buLdNwNPgCY
zckKc=Ah}DTK-adaPC?i98XS}yRaowBnA2ZTSwkgtOI?%T;MNzZd$M(X8$y$zFSk`S
zS=|Ey&7iRPD31^CU2K{0>KK(urek43HL~JNmW%)F@4sFA*T>g)hn*@Zrc`T|&&2u2
z6q96CLn;$tRbvb)Q8ixR_>7>MHSEbj)fC|)={Tnv^~yXIIiH-Go>D39d{#9IVut5{
zVTQ+6r&_rbH^rqzMw|)vsPr&%f;*Gq(yH-Dl4XvmF0En?XX1O$XHQ@z$EHQqA&7jE
z<(MhxlR5Puns^Wu9z<Ey)i{>nPOWc9tZxuhOJxX5RRa@skma#2<gw|gmgqFkoQjCi
zgi2#D!GWI40(XYNi?W|eWum8<G$SN0aL_zG#bBLSKtoI_6Hi7}DiV#Vrc5j*Fsw@J
z-9g``tjIIsSy0<q*ar;j-A$F6#vHOdcUCp=oG_gdRWt6DnHGf}5Ub}A<=-z4oXha1
zg={3s4J0Db(-AR|N%u$MurUJy9~}_6sq6q?1F=*@NH8oH&9K}clT9Qa&(1JFU|>VU
zOq#*%%#OjQ2e&;96t$a)onx8P9G~V=OygKa5P|z3|1?O4{j=~-IEguQe<Skv798`A
zVr1FflRNOK%QGkE<>K*WS9fmzs?$9e&&Lai#Wtm7^RjbGZePjYUQ8<fO;>sq|CZ|(
z#kV7Oxa9QY_I>JUDNO&oqu>B0R{LCEzOQh&u=|?#*P-`9x2;d*URZUw=Em}4g)_yi
z%Z^RCkyU?Nv9~z!iGTAfU9x*toWWwh;@q@G5sto+v!&RnI5(~tNynzL3AutgYNi0C
zkt<M;73X7X7K7vaWeQnb_ninteI@@&;pI1&SrSG#Ixxcl#Tmv7H)Dp~in9+h4C@Rv
z6c~mv2j6`=^7<Eo^TA?h+4I<}spRXJr9btzEF7FaSUi8FW!eA4tYyX9_SW#*BbP@O
zhpr@*4bLoh3@P5B4+lTm{=xQ}8*lAUhEFc<d`a=XG;3aQdVVpyFfu<<99m2&?E^4g
zaXxW<@I&$=(+8#-XKz`Q=Z-HAjVe!$D$db7Ro;RETgs0kr>C&5$j%>C92;^YAgIN@
zV)Yf0inSZoVd*JZy@fHw+6C*dbOYJuDeO?J9cyOF(h2J@+F>0=^QHY4_s_mkh%F@N
zlZ)ne9q%~q^b9FIL(45Y{%m;m9&A72v5VueN8?-YuMK{xML+*wJyGzqwSv8*7Jd8@
z&ddUm&}5BN2PVKAWut78%`z<+B~y%)Eg~MJ70H4pfZGtkeM<p{M*fvP^|<9B^jfs?
z5IR-$ybqz*q7jLB#Qe?a_4%9A>+@5O;NP5H=ii)O=Wmc`*2q%VOjj#6ZQ~uon?Rv=
zwc7^k|1S2EVMC+OOoJah7vZylYQ>=D8iX(fcSRzS<uo6mnsgr=wl+H{{4>B)HCFsC
z_PGo&QmxqUYG+8$y|b<2rQ&dV2srMq`$hgK%)-~qN9_U10r-TE;g>^YH`=!ScedZy
z6hnV*@9a=ve6geCYc2LIc{k(^tr|A0(7rW_G@7uvcvfh~3LRXbZ2-*K^Y+5=H(Xx<
z4Bnx;6uPT;W|{7V@&5(0%~|u-!nQYHnx>$)eI?Ml;`Ocg{Qn3CK&q|CXydoTQljwH
z3WO}WQT+`}0dginhEQ52Ab=)WgG{kT+0YQER07}HXaHCfn3EQ`N+{MCI^+FbS6K5k
z`fA1G8o1(vvaV<bN=j7B&=8C_3D-4_74!Zo9Anfs;)l=7x}v*~uftC=u$H%s4N`um
z&6-ZXkv6rU`#YUtB{oY`zmZM}oIro4)Bmwf!RKL}vevf@vN4HdlVqH9)DC|QsJ_g=
zqret~CSWIU7*l^Zfa}(#1u!&guhfo8?X1);TvvT8fnbDAF-hiKKzXwt5?0d*6m}ow
zcL2`s#J^|ZclUYx!+E@RajS;tG#d$%dbVa_xwFYA7dC29nrhY(Fi6Ne6#!>3kkLS5
zqeXDqy&N{EHjxuVCK?eqW?LgN*oZvYh&;s~#1b6Bzgj@3v!hibB#)3_nIXSqlW9mm
z;Rksq&NtaK@5E!UQlTC47J<k2ci5s@weUboz4#wuvZEFrXwd?##SLt7N{=S2HJKr`
z)sregrA~7*s-;e`0H0b6p@$Hy8nsy*F#(<N^MG&*HWcCr8hL%WgC&<cx4+~M<c^eF
z9)R55+=2UU)YkR3<FaEha;5V|n-U(rIezoV?Xe%<8Do_(c4<nu-72mII~HD>e{J#L
zb^1pCt=6RtqqoPIJL7R>Jie4Ydpme;wRhvY?eDZ-nY__=^T<;FgXG?GtG?ESo%1^v
ztylJ6Pb_sm_lM~}%D<PFUX9-Nv8A@}tp)6@*84sGe?b<HU+(<&2ot&7_3aU+s+qMh
z;#sdLcd-0CiQo|JD}^4r6WXkVHh&V@ns?4pvtz4td+`8dejQI-4=?RHrVPHgH2R~Z
ziI_4PUrO>z!g(b*Q-+L)*h@k+LLMjAFg8lwN62!5ECqWO14?kythqq_)Lyor_I?P1
z?Y`VmEs_j7`4_Q8ne_Ntb?NovDR>8(hCE-Ts}PSZMx`c`B0QC3(t-%yg4ZK_b2`Jo
z`w~2MoaE9%hR3f_qGr52wj9-_8zB?Vq}cb6Hm`1R^scE4JDuWo^Y|qTzi0{X!>>#c
z1o1ht{{=ZdLmd!|lk}y~#ZZ~tP3$apA-8u<%1h;LjP)R2U}5Y0)-QSiyGJ3?uJ;-y
z5$VbWE_Gh){7HA2>?Ld~Huv1F{H`(ua48U4n3$g^8vzFPF8^FApDLR%MkA|ht|Q-3
pwqVSP+`cbt0Abc1jnBQ41R@+?*vARNxAr`RT$`4ieHZn({6CjdQ#b$s

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_959027.cpython-312.pyc b/src/temp/gen/__pycache__/flash_decode2_phi.py_gen_triton_code_959027.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fd7f5a8a35696d1f3e969eb1450c8275f6d45800
GIT binary patch
literal 6227
zcmeGgOKcm*b$0n%{wb3BQU9okO<Rg$$8ju2wcXf`B}cX^JFzRp>4N4if96NtUCEZR
zY-k`r$R>b9<Ukq?5E?y1sRP7E6+P4~3e-T+mJ7O(uyp|e(ZxN{vC%^hMc*vBBqLCD
z6BK9;8DMALZ{ECl^LuaqV6~bMl$OLVLSwB6eSs0RC>%f@{R^rbVh}?_(M+W!W(Wl*
zW11N)fmkA<N~^u0Wk^;Vu{02>Afstc4`><fJK9@SsTl*KV^PG>q`!U}x?vkSwGEwQ
zjR6y5d`CNDs?E;y4w^BOh&9*juq+T>^8;+gY1#Pl<e8(d(&vs($(9Ou?9`cK$0z-b
zX6ivy1K*<%)Hx&&xGyddveGuz3~{T<Pdc6;N!BD=7){bC=u|z7w#IQa=)iVtDWW|{
z2sK)Ss)04&Q{Anql}UGlt|rSXBGIu3{c2;kimjpzQy6j)<N*dv$u_~NDi_;S*<<L<
zKLW44VFa5hRc{$WwAZZZ5DC#CY8PSFcnq;c)Yag2QD1{QM1u+^I~(*jn?a{)Ptqfj
zpq)~Cf_7sKZWm1|oa}mn#;%&i?gq)m-BF#M=n}hYbL(l4b=K#vLLl3NJzCS<`vm#!
zE%JS$TkOSiNV);?h<(a@U|j%rRyaU|;gU|VC+T|s&sxOjMdzX!DE-i*zuH#=J~FGm
z03TUY`0WnSs=~>E2J77F9O|t&Ai5*%bzFtSfk=l6*V~Av4y%yr2i1QBT0maIX%27P
z2lzAvRmnx|a5x_D60(jF7G~Khy?oeflSv^en`XI0kn_dpFeB>%(S%Qsb&D*Q;AMk?
zJ-=7h0u`8?FCJuNy|2<5V!mtP*j!B3u-9f~9WNv}78E9AEgnTSu~9b0#sykf@IEC|
zFVpAPD^WHs>rRCk`iyK>8hSDjJbrEV9M*DXPLOT9z=au>j)6>qzO)4o$<D9xqY3}z
zEi#PkXpo8WENIzE3CZrQGKwZ+m72ID*T7I6WH@}GaayQkqkoR0FZl$2NTx6tV!=TM
zelA91XBfdXbTknR`(=&K?*|5Zg~pS&T*3p<aheY=vNBb{!0-A*Ai&d%Y{j}Nlb;nh
z@aDX1S4ns-n5Y*jnhkOGDh&h4#zd5%dA~2p%0^79faa<(bT~dQ8xnH@?#w?0#`iz5
z{PX<C)dY8$pY{3Kk&w@S*(Zb&@nK&O)^mjC{38Mzn;ijcBoOuSA(~<R35MNE&xXR!
z&MwfvpkW<_M4ZNSdh~_S=k~q`9J!AUTxICXEEi{^bYowd7eM=7?nSWA03ZJ+*up9F
z_!-pV%2~74yszZwPfgsnw=5+y$^2Bw-j^ERu(hO4+;_At2R^U@&tzHJnc2BKxqRqT
z=VzWzJoildQb#v!j-_BGxEv~UN^QGJw%w@{>+Y_6SaR=J8Iat&ZyP1oXlioP-I*Wy
z+`S`BZNh+^+0Oi)e6-ZEJFVa7=qVUiPD}j<rH+HEKe}s^zJFfoIA5Ih6`6TydS2?7
zFD|@YM(8LxMLvXknNXU}DKc%nZ?!L7$Xr-{vt%7ilN%oI%0%(NxHL2_dB*P^D4q{U
zuLdMfpcuXa{pW}Y+&@xjx+ci9{XW>zo^8+fm0G-M{if5M+m+pwpI*_IoFi$&eRo^#
zmFz3|(ZW@!>)DcfByChl`wJ(euH7Z~P}&GiTAs)x(wcS3oaO-hiA41P=IqQ*NY1BM
zjFNLt+5kSu7|VmGb!Yh*<Z8<svcsuY*G<-Cvt;T@9aWSRjFQ_c*}N;`w-=<LBa-dN
zo&9$wq@%A(w%1`DwEB0)uaBoMEc<hTY#@K(ql-5#uJ!DbdiIstUigc4|07sd#I@lH
zUwj<C=eSO&{Ixe65Pb71aRc4}IV5T#K-gLs0{7d7M`B)5pVV!`*C>30s1x-8GD!(|
zG^L1?q7}g#ONttih&0+&m8nN6+wg1g$u@kAdT(#TuSGE;`GoPC^Xua`=hw&AJVAeR
zeqDcaeqFy-G(a3xef5>sNnd%LI2@BbP~Iu*doNkPSG^i|NJ73@R=EgdedR*-8k=n!
zrI)O$Uc&eSrsH$5%Jr-b!ZX4fL3{14<Msn4yP91(KLE}l`1s#Kl|p43YWL*A*>Hi#
zMhizjp13)&;=4JSK9D-T?rO`8W=Hc=*|F5*hNWfsK+)WtI<~1DEF6=x-gU~cPFd4$
z7vQj2mn<2}^3;3weCtQuH@XYHpY^Rg{n^kbL$|No8d-he*JHmNyG#7)@H*ALM)gWm
zZ~jV&8YmoI8yuAeM^^_*gJY|SwL`B-hh8hbe!g_*0vz8ZQ^vHs=RNB(pIgi>76v{@
z7W^MaZbojm{5-bq>{@Rf_=la+>A3?i4L^Lf0wGN0Q2iaYG-NSE62j9Y0Rc40Xp<U7
zm((_dD|ltL6bOXKO4uo)Kx6QXAHyw$F?>qhsveyNt<3`Q>QM`5|8qF5XsjO7|3+g#
z^NsX13y!gcny;fz)H22obq!X2=gr#wfMn_GdsD9@Q{VX%yx8pj!Z-3Mfs@kj_9@<&
z|3ja`oritOm_F1dbzulWL|vqo_SX&pQvazy`o9~Yi?9+&1B4-VRYIf~vl56<jHTLI
ztF5it+HtGiu>^u16^>psi~;BUVJ#B%=aAQNnmY*i1AI$!FJb5iuJD_zJi@ZpKgams
z0mdP>tY_Hyu%Gqnl-E`^D0v7ZWi3?zXEc!AKwhDQZL+bFzCdo{)yigp<ptXBgCu27
zBeJ&<dA<?Z$Bkn<CUB)hg?LijNvOP(tb=S4aw`L*noKwj87Wkdh~gBKiF5dW8iyY>
zphGIcbNB`K8fB9b3@FJJcNnv+IPt3HT##c@N|eBaW6ChHsb(|ex*W^TMFn2gTxJ(!
zW1Z6^i0Dwb%_506U{D`?{9Ra9h$JZFbfr#i*d36pxLZ@FHta0`Ih?79#}3rl`;qmA
zwcuOnS?!d(FW;HDbL!sokJqLdX__g<_<J3~W_x$;t?XNcleekW;kzBh!L#>f=(U-k
zG!rb&&fjalx;gO7$6YtORwAoA@0=<Qf0aFOb<@?6dnx-;!2}_DsMvS-cXPi_{w7&`
z(|^y!Y;->Lu+`FGdffm2H>5CiqvzXWjPFM8x5pUOGY_YUgHC<wWcdh*U=y9#@O*F0
zvrF>q`rI>=v86TX=}oFDKT!xv-Ot_j7RSy=dw*Cw`$q9%Ksp;NhPfhtO$skSnkf>;
zNoZcFWUC@^mVAtm@f^9)-d|{y+IOT4%bK5B%0|>RTy`LfD|K3lC%sng3_el%N@6eD
zEA6vU_$M?6sk=<65Ql%L%9==6fWIV(I4{7R!Byk=*Vs6p;A9P)X64Ls_`t~K%GslX
z@FU|BqzqSy)~T^rf|-l5hd37GAR$EjhftL@1VMa(EPqATzoG839+A|$p6i}6`8@Gr
zxfeN{OJYVW_hGCbxmt5W*`Y570DGiCq@^MiCESF5-R4?~W};;cz#C@A(pYA!tOFP{
zwsqw$W-pcv7^9HMzSN!RE*mjsLJrp>GeD0HBEtHmWriSJ507Y&eMiZ*^SW8F{@+!M
BQkMV#

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_124574.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_124574.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..45a057bf0ecb4a01bc7467974c02634919950994
GIT binary patch
literal 10690
zcmb_CTW}M{mNR;eUX~?4gdboV+h764*gOozn3#tl0UXRb##yb<$Pd|;?3pnJr<D?^
z+=>LLl6-UTT4Zk(GMl=H;HsFdRK@JxD%kui`>N7Ju4~mSTSe97hy8LceC+PW?w+2}
zSh6EyZg$(HneNl)oIc%s`kd2e{7)v6o`90De%=2sr3CQ@+>nbYU3v9e1wl*^G(nR?
zM7Q)NyGgOF7*=+xNJ2rlNsq`$CYIhJ+_)TuTeJfHl(dRg|3*b?Xw8iFfpSd>B~ATF
z6iQl`o1#zIN6`AaByH#;XN>a5FoV1tlA7EqPks(~-YRhOD)9VO;FjF*UOjF7RP`V|
zu>9`U=?HoQUEn4>g*jv@Tm@dV3cPp~xXo>#*X8c(HPR)Ys=JMEkOHWCRdgv}nM7&J
za&w}8hE%;2T@HNn=n8uMr)0Mo^vk@oHu={{d*w^KES)a{@O=3Weo*kRs|4erlkXos
z;W+zl_ff~GWv$L-trLRr*qQgwpH5@GRAF+3p!bdqJ6O)y=Vk>Ru8%vJ5%y&z9)TbM
zMJbS{1hP{gPY7z4V}xS>qILPay#sx$pd55x7fg(sb#o5R=a_IaK1Ktij21tzgp3Xz
zg7)m`lkc8$oN%p!mRxWTJ{+%l0db1pU^J<C;8?CKG&!SqkjC(@TLV{_g<Fz^i|4$e
zAT=s@kRH!px(2QW6)xeHp<+}vp(Y4_Ia-IxCxC~4Jz9^7Mc4)ouYg!kDcUdrCIl5P
z(N>@hKvOXROEm#F{z{Ppv;c<rRG~^#fca#}gBNo}p~;Nwm=988j{c3P3KhN;_0nua
zYK=%;jY?1vrbf26;!z~w$#WCuQ-d}l^&p-}EviNuv9<}-Agx&2oHeT)rWF;S!d?Zp
zG*?d!GdrV_$Me^5W*L<xvpDD4Yb{zKt<2>J5m9_-0eS7no;`b1BhF_F+LD%iD<aTF
za1g{V6g1JRD8Z{v;dK&Ma0~9ied!*Z+~ePtC0P!mi?*TK6<oJ2=QRPkPpfA%vQhWf
zBNB<@Wh9}sSbLCO9u-wD=Yb4zkAM3b@@z-q_!-`4({f&-JY<$U4X{R5QG0hF1=_J<
zHb!~mpU7mAd;E<^`4hT4xpyU9dah=<-`}*xj2ho+Mp-NDDUkIl^M12dF4?D@Ysk{{
zR<dNT?k?DCEk2*LsBQk;r~&O>zQz+^PiY<A7yq6dtCgW`M!QgR7WQ7W$5WJ<qg<2S
z58C^tUeU7c#JjM@dKJrjGw-GK+K1}0RxH~`q>)km&*zTz$)|h`9y#ocEa3!%jQ+Za
z;`2fk@$+o6zvbsyW&eJpLM_X88s*DckM=J=mB=FZ_*+qnWP?}G?w9QGayn6K4j>z?
z96SO(dr#JGlxFrzuAx>`=UFeeGViR@@rK<-2WIrL6(fo3**<PVhL>FX{~gP2=w!e|
z5_VEhIj;?{FL6Wx4K>YOA944|gF;-S8g{aSg4)ORyBP+wn_#f3dWn6Fon*@JD_>A>
zLxO&U@%1szVaEV1s9f~GRY5sC;1x7Z#_8>I3u+t_v4XaD$misCHVJA8tb!&D^gcl?
z_M{OS_XtYb#|e5T=NleyIh-^NoLDTJpk_HA<F>a6>T5U*6Evga(wh~-GC?yjg4>K0
z3ybAsu%ltXs}X{Z<(L85?YK6asSXPIG<0-4yY5|rv#!3ZdIml*l7UZ*c$ZkZGTdE&
z-N*RGMjY$_tN<9Fl`$cMRYXvZz_L;BaIhneK`8>oE#QQMQC#&3`Eqr@>kyd=l*Aio
z4ZQ;l%ZZ4?f-y5Ba8OH(#20LcueX;4sPvZGgMtQcG=__BfQ#=zLFsh41jXPEA<s3&
zFm5mB5E%>#S_uIt#eHD$eq0#>xU?UvxG@-@?gO2;CTOMo0UeMwh!qqpaGn?uG;IGs
zF9!qzUT&9TT+jhR8l)9LfTO0}qtK-l2ZsetSG)q{8-r<c3@cEgK+t5{U`Z?gPvyT(
zH;nt3L3YIHayRrlU4u@p-{-A|>w%YRU>R2f=N=wufL4Pj;INY$9vj*|a@_$S2k02*
z^EzBU(6q*;UAvoiL62aPkQ{?<#_JwpXpj*{{_GKm&;rEkCc<C}*N5t(UGw^iz~N_R
zOV}Us$ExPdHG$(V@~u<aNo|yjwkGrI0`ERs(N5W_V*|XcA)zWvnXQT9O}u$i;CRYf
z8tvh&_P~i}1;vr;vHiSl`>Zipa3F9pWwb?i#>)A!dfvD_a5QDgPZU)1rs}wnH|`1?
zeV$hk8RGLces$*F2h$(KM`yPsYY*~y2cI<ZrXzul)EeEUqNtHK)x^em)Anzz-<3Qp
znQNRIdU}y>JC|%c&zsH%I-Z*fBF<1Z@cK#Rh29vh3)MwV#<nF28op(|n|L@euRjzx
z`~rq;{}nSeJ~<v8jcuE?@f-IhZTlATT7rsHNm+D=FWC~m$d~Mzy~>vy2<D}%m9a+N
zS`*Yhw-iT<?~<`yG41V&_&z}4ExTqvenS6a`;$Jtxiit#%{O=RmhPZNURq7;!q@F_
zE`Ds<F*`oTecv@V&Nm<9YmYr;=kw17)z7W#qMcti#_4!7U%qp8lrP^q_a0x?!CO0?
z7AH=h`{BaH#OaIwP?5Oo=HGSmR(DYQ%u+CAo3ur3vGK1*XKUi){O0DlO-~BHAAMqb
z)WC0kH_>%w-f}jmd2XqQweXhupgIMk?7nM>9f{d)x5a_~9^SfVuK0=Sd*>7Fql%|3
z{J!(N^?Xp98*z#G(=NWHGjXPe-v<iO6V$#inZp-D7b6#A&FMK*@0{(OJNJF#+{K4J
zzWV6Xv-75|1=Bg+bZ-9q#f9?@{=6e;`tzXT*_xDH^QQNMis$LYkCVK`9@Jp@I_@^c
z=vedZ_j&8qILlj_09;fSJ#x1ydTi1W8|91Y;_ZB4eNdMwD2kR$9*ns_d&Rj;ZJXTo
z#r9b9y#vz+{^}raZJNEpTlOyGxAOU|zdQ4|`%!l?|2S+4W%!&4UkzQ2xTpFj`+vjS
znYcZXEZ!17nlv{pn0NE$-QQmM&hyZdG`I6q`%UFy17Y63*hH8MbLxBG*lMZ{JwP-5
z<!G!XI?mfR$L+jrCvV<4+c!sl-#*vJ@9B72!tXi5o6o>O%(q3WCJkS9#Z=LYyty`R
zn{B*bHcS6a`)nUy*T$RM0>__g^CFf{K6*y!!={ia(jQaa(@*PXn!ahd-;%7{Gk59t
zRL2YGq(W3=U3BN2mfI~~UAgC(_9V+1=cwOP?XSR?5CRE?c68i5(AUp_r*t`o+=3pv
zUdM<JEEUs=aWssZ8)LjK?9Szay^xrM_-}{{KGS`spCS<9Nhca)B>a}cVVWGQ1M8)D
zkNAW{<XdAZ-WpT+)|f=DL`e_K<EGB92H9|=v!dW$zviYM(jFRGfrG`Y*$|%Wl}S^|
z^Y#;&l!hlqG9si4>EYUrJ-t|RWldpaa|GElN;w?#YlFHVaG_P7Qhq9Pu}746(I()^
ztAI<Q7LNrpAUrs@Sy5=U9JH^}uUYCR*PzecpP^T*L7%%nL$6$eK6ihHUb_Z;?*0tD
z>OuO7OA<(XmauC(Ut*OJ!`=G|21ovahIU^aaJgOCCj##=rhJ71{$DHBO5KG>1Q~X`
zgYrcz>w1wxM?(t07gH-TKGsu!DKU>;1xTvu%nB*-5r&9eBZVJKC2lGO)v2TB+B0!5
ziw}8aAi%ibEl{mP&fzPxvu$E)Iy!+cYs~58AXs&Xkqz6ly>-Y3c7$z%iiGR|Qnnc$
z{}CXbQF&oQ$Pj6daM4cQwlzs@o4NYUNB2Jhk54~o<J-<88_x37*%W0Aeh@PMs8*JM
z`2kw-{=wjx*mV%>4?vvC_B$cI*F#d38|WMJjX_8Wp}wnMP(!fAU1#i=%!?m5c!ID|
z4Cd_yrWeETt%d2wj{*F^mQD)#6({yWv^&O)jB$dh590r<)i40oQlR+GJJPC@thyEq
z0{lONAA1rM;Xeb!qJ}V<!n;GeZ#74pH(L`bTd*}{u!i@C_TM@XZU4crKA~ElFsx4*
z^27T=`)=)zR{dZoOQ^~chO(5QDBKomOB%|eqdyob6ROIDp)zGKhMPmpH;x3_1EVQp
zLHJbY)QzKoLqQUHB8o`Yq~_-SgsM2WKSk-n#*pz=UZDM%$r`>Kx*V;Fc14T78oTG8
z_Rn=azVztQys0D5@mirYY63@IQ-s<Yso_;NpbR!gjz(KzS8=s5=)}CRW3k*aM7pLf
zO<syRzqp*D%;CIHUSu>$l|-BGv_Sw;l`PwqqD*+)NY^cMwCGOx?eduOFDp`%b%843
z0kJAcl}9}b8yffx4YOo&LsJSg1bZ}Rl3Ewtbf^AyeVj~|ZUKtd7M)tNSV$PHfm5PR
zxUx?HwymN^x(iRy8v$Tt@xvMMV5}7dQo@SmXU&iO*$OP&6g`2`uL65Y;=~fuF4mw2
z`~uu{0SZ#V6V9Gr%|Wm(70;4|mm!e)$>9$?SjAQpe1`EK*lr~rqc@Yrh2*tgx$2xq
zq+0S3cs}wMye$6k-Ay&4mMw-~16WIm;SAaeEG^O^4VJ`D(HcY{Dwjo-Js>Tnukrap
z6r|x`etsRd<S{+?-o2tAje$Tqj4AsZzdnnia0NOvvwCy!OLK!1FW|~NVMTTF>UeB9
zcxLu4M`}&x;x`~eE{y`M$n26aOTJu*AtkLBwMLbtFFD49y(#~xoHK?8X-WMiu0rmo
z^|FLVh!0_Q{ybztMwAB$Ed4K(QgSPuZqK8oG&7uw30Pad>GKju*XdT7m89R9x#^Jp
zEiv^V0bnCVuL^vTsq^LkKoL#4Xxz`)6$}gF3)(@qdju?eI<K^Nu+Q@E^*3%$jUGrt
zw!g#RG@6uO8pbtHMMx|$*s%(#s{`(F<|?i#ypT`n9rL=l0iV}71Zfk<9;uu-(F9ND
zHON+60j~iG7cUK;>A+u&Fq<)<8l2hACZ-zdk_V}Un%yjU4y?+8-p35|LD~UakmxqV
ztP$i+oHXQPAhm(Vz%LjCauHtNFmnkr`vB9Dqk>|zSI|JVV9*T%OUVm-?3R3sRFV9P
zX_<><z5qNw{Md)!QvyWFV#T+_z<byzYeJeJ6KRQFnQTi^8w2gj-Gi12wtVt25Jb8s
zH^i!VOLbh&=QquE^Z5sZ>Ssnv_;~2}g0X@(RxB8+d1G~~Jx<0O<IdTlIm^S6#OD1;
zV=H(TqXiyWqk+Y*g0aA}b%Z)1aK#CBB#oOPO^^d(i5v}`g08BXz|mlB*dDUq+8R~!
z`t`hOLrQOs><VoN9D1h93zvn;BJRiqn9Aj(t_on_M<8<e)zPUFlP6+i?9j9(Zk;wH
z3%7xM)+DuSfokTd=HICw8y*>w6gb3`P9H7~6-UTO<E?UFkoJ0(sPlGl%raB^&DQ%{
z=bVrGAN9|hjs-fNS&Ad0f3XfO(Ntb!W8{3~QnWpC>C4f`<;jMaJMNqw;H^7&YDY-3
zs3feV&vk~dEo6&WBA&^LSXEM26F8L01v6M8O%W#Ak}%XJRJBqtGYR|WTCy+Dz}^A-
zrB_d3Q&;m|qVG|`9YsY;{zbzr`7%#7H(-Pd(jYar<Rf!=Ah0Mod=PvFmMw~wTk=OV
znPpMnJoqX2s7KLCF?EhVqNs2>JeQA=Jpp(P3M>zqu|N1IeZCp24VlyHs8Pl<>5yVg
z96i#mf&;!&w)J4Ia@~KH;(O7H>(;;l|CMVbyyCJi6>kPBY?NfTK89JRLs`*eiN=Z<
z$Iu%55Mx$sahN*%2*5+ojd|J8F}Hid4FN1xpOvxebqvd-uE}xcmzYi?Ug{eK<-|xM
zi}y0i#7O4FFy_UENQ~c^+ko+F__6;Cj{x!9XbqnXolHlRls?!M(m?zu9YqM@N54|v
zGfkUjd%qigI6RLJUFH;(Ri#f&*^b%6d};GSNgH3%mMnQENCs<zbrDOj?w9SstvB<e
z;{>O(JJcOjMB9_54Up&47ls=`4bhEJXHs7oIGi%&g)f9IL=HvuF~HaqFZgEt{q?h>
zN&7zDv~TXh!huu#fm2VN$pfc(<LL#%1>SHWaq&{3`*PCIlTh_Y0prqff!S%{Cmy-i
zP=SAEBK^uYU$8*kNw{QZe`C*a=(4Wmsx|mQ(D^6vQ)f~MI26o$&F=v@{2IU3PeEvf
zv&3S7FJKyc<dE_Ks4FghJ*`Ii0TKr-pq`pe1}^}7e;K2l;C)5C!|@4xsu7)>fpf!0
z0+*A8#I#*4`BeNRhW1LAE9{EIJC5BbU6Sy@l9W)SC!GR$MRcZ)D}wflLrO3iuZaKg
zBBhuF(jl1A8SwO_OAG%PGd9GrEKYi4scWUAuZ5COKKQ!e;^bQ=^IO2Z2R{~{15jK`
zVc@+NX+7<Vl97(so^Ol3TmNwVJasV8{)V1SJ7?RUY?<G5idR*Gi)x0va@A`iQM6rj
zgW4zMPbZRv-GNh!MnYE{@h_@XW=-JOVm@Ik2y}{C2CIjc)vjc4y#11ZL&;##>=x;u
zk3d~8OLN{n1fRRc;5&gp$u$Ol&J!r-80X{0ylz2rSp2UcLFpOb1RdOVS<ZcJgh^j&
z&$+#<j}eqOTZe#93=hO(EG~&)kQUR?=NqE$6O#9Fi379_`{=PDcN_E9&;-j(uzw5B
zMI}j+e;|ziN|^qQC|}eQ3QM5)vx*xP&#9uI2H(tL?A+l**V%--moM&1aAS)EaY%7k
z0jEfJM3KtEI<q!bT=528i&~XQ^G7|QTbC**jo4qCDTQLuN+_t$N^g`dDmqB=5DD#q
zBAo4AERfoTa=S=s7t3v%)LtjIOQd!wk(VFt3HAK3Ol-eW5(?w10z6WogwU-Z8h8Du
zE+wt8qI>1j<%<MV=hTmlkBnk9RlDV0&vehC62Pg0M;@a`NUT5KQoo3)p6@+?abMy3
zk8Q=|rpWoJp2?m?0;+NL6@EcNxq8!&N*(zj8CBmg-Ui0F9zXw0&wW6|^(SM0kNyrx
d^;CJqD-rosO(|LMV=G~<PUh9zfSra-{9iT;3|jyI

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_178552.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_178552.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2a0fdfb763e70881c68f6e93794d39359e60d3e2
GIT binary patch
literal 11271
zcmdTqZA=?Umfh{I2HSuEn?N9mNgy~Oup}f*LPA1-WF{XZkZdvmGEU<*4qrC3ZNAc;
z_3X`R?76+g+1pdhYNeRbp5ja*jc0YzlGRGXtX3LkPp9b`M+@qkl}6hAlYh)6(tYTp
zyI0+AV>mM;bHA=6cYVEA_3G8D_g=m7KO2p?1f<);AKuO{Cx}1eijoRah3EgJB8Yng
zOR(e!(Ie+%4=L5DQB{wcBq+j34oM>^$Z{^V8`ihs8cVS%R?TWy?Jv}<j@3M-AHf_r
zZHl1=jGPokE}Q!j7!=I%su=25#87{SIdWckjx`KDYj}y3=Kyb&m9N8a(Jq2Den39X
zdqm0nhJDMEOPOCb->Du__CKS8E!d>pv`Ks6ChbMp+Xr&l;&;`LQZp)fPY!E#5<|rq
zgrthBWs~-jP1?6@(q8J+vt`-)1`O=>chx-xwvsK+4#8GP*v9O=uhPnr1L{&(+klqc
z@vf#P?_1{FY=t|s&zGVxD;I(5yI{6_b~kH%m+UEkGgy%3y=j`X?Rkdz-T5pC-)95~
zpHsL*!^fr;4W}<$YCCVg@<vaG{o=Y>=epW?(Qvl=()TZ?AfMqAZ==Lqw|~^`^)W7|
zSIoiXNroHqKHG(7P~(pVf3UdPR3dp%Bs)d&JmBdZ9{0eY%PXpeozt8S`Z-JxmxDi8
z7m2znmoL0=)qdWw4QfilFnH$YK|r}j_+T}18cLlArH*r!d`vw`K?JsK0jtV@EzN+%
zi`bBO4PT_3z(Cm+uv)%24ZEGU@Y`pABY|>$8(%&HGzTj93f>~M?eJkXNQp1wcgz46
zcuN|0C%*%5cFt%CVg_IWyQC4I25op8E5C~`!sBGngSoXKvE&-<(m0j8l`noNy!1LG
zyxn{$Z+<B}v$6(^w<UG!paXk&g0BQyMf`|ji2(|qE}q7-@_TSAZcnx5;8r|?L|qk6
z$`EUKtQzx)&y}!uZ@|{C!>;C4|7-k02|I5Mdu?Pse;xK-UcCu+K{o6ZU8Z$o)MW4}
zi)H4E_~HS|m)_f<ELQrlM&WzF=F3+=Su$hfY_hH6&3p-_MZs3`b|OOFyakfBkKZTn
zybPzvfyDRy{Qivbv&-N59j@hTH|&LO7|Zj4jB&EqGQNsGz-k}s6wf12w{aYquYvk4
z#v%E7Stc<3{HAgNvymCIeQ)Dzyd)oihAn1O@eRBrLs@4_%Mr{*XUukRi&51usw7+4
zM%^f18~Ao;<4OP?v<fSor$8hBJ-%@Ulroz;1DZ5&m_NkorP2}p&_-@$VrJkp@rU^)
zNt+$Saus-uw`HuSP?5~FoUh|w8#1rel@eb!WKqg%xuW3}Ih`@W95#@TlpOQ2X27jg
z5%R|lHSrxa<<ak`DUb0KZ{Uy0+Dg%4%4z3~{IT`&uk-|(H{$Rbd@?q|^IF_0?a6Vz
zgjEf<g9XjBV43za#Wuc~xADgx8<f*S64RNQxonNQN+}zL&DhDo)P#)`)y&kO_Zhae
z90(6?(XhVhF{ewx2a~TJWxT_p#^bx~<WlXcCpoN{p5f16J|r8-!9|9!<%yJUM9dxI
zJT8tIwGXnQ+QAM^h^o;+x2R<}#_e*7ni(hO@rt^E5f9@#bWqgD&1$H!qKftSU=R<t
z9mW%L8J}l#&|zm-R@8W*)oD8+Y8d;Nj}tZha^{e-T(5%}aeAe4jx+%-a#&2cBK*OQ
zteE5Vaf7VW&Wx@VhttLWjG{Z;>R5wyxW)X`2&w6YH#WG%ycC2?#PEi?Tg-KF9{-r#
zI|u;SbJ*ZOaV3~g)fn(j10Va0sC5C&_R&=C77MVyhPwvcc4;h;mWKos{lFmS^+~;>
zqG4?&K$k{KWw05ZfdMZbRLYh5Fl-X$n^)9I-1Un3HNJYq+%#jMgK;?gqy7=tAx<QR
zMcpv=Cpn*}8DyvIFc20S$Vo;tNG<j;#xd+<MY3N8afwvFSEOdVu(P)Z2Yezu==L?*
zCzugYKQks3?99lBs7qBub-#UJOw>sP!=|JPK)NIWK(aKW!+Qc4xa<Ft{_}GEq=y^!
z0>RGu+dwtryX|ow0B70ltM_t_dY^N2tR8Ch62+s85BN|wHf@I{I|!K1<F-3IAZ86s
zuN^*o5PC$T3}hd6a&G4c*AFD(1Lti9TOK4{93k|^*#qGN(XOYtJA-Xs8S-W?hA&3P
zpBk*ej<1aQv)9AdBVAEL(pVKdv$4KXvO6|_N@@jl@k)N7V5vs=)xp<S3d^E>sL&QX
z|5cGCG7;0GlKt_%WYMwUg%v|d^iZrEZ9jkvb-|7mV}Ve#8yR=U4am?K?D*PP80kYs
z>n~3~cw_#JIFl$(?rA~Bmf)F{SMK?J;b*0vmM%3cjU-!pk+C;;29G}Q^RAdWdi|~^
zo`Wn6i8Bk0zcVc~eSB$g5H(&xmP^QZS)Od-=S-|P>bm=bxD}H>jV!M%99i7+2Xb-m
zlaos~Q1dlpxrU6_Vc5d*m?f_MkcsQ&cP7puYs+Fi+SMgo?fJ5|Pk5_e=<P>W9m0Sg
zUG<|~epEOSJilTpi%!JY4_jldxgR9<p`FJU^U#h?q5I7*Z}bR#w}czFP&Xqu2T=Eb
zFf@g_rqGTlWSS11`%7W*y_&l<(F^ffVSCeWxld-E%seeT2fT*WHT<mqp6jkF%EZbO
zI%I81T3%Z=9u1Kzg+-AOR9G3ijtXnz{sfQe+fZR!NVif@@{7v*wmDm@HO42)8c{)G
zNV8(HM0`K*icH?!5wjxG?vNHs#o6%L$Qf9u_o?Afi2Qn6MU?%ZHR_tn0|sr|A2KK~
z9YESqRNjb+8xs=??C)9^Tp#~nsT4JJqvCGihFx&oergzm5i({uhD--S8b!K#VpZ{a
zRCyGck1m{9Z2W_1vFXXBB@a4&6Pa%c?2y3upBg7ZlmdSvW{&TG)gp6K#uhQC`I2yj
zLB|+mW`x^rVPg8JaVA7%&Wl$U8%G5-u;^lQ)O`0`Y&R;Z3ehW;ZP8<QJt6%{kvV!K
zw&z1Kws-DiybEowOIT6aAym}3phAVsn1kD*O{kzU){pXQLh2Q|=x5x$iMtc92gMIc
z=1bzHk4hevB&`j}l7omo7}9@D=S6B`C8)3l*i_hv=*IW8t2QF<*lI12UkuxnSNY5C
z2RG(##K#l0$*Pkm?_}`oN*><8tUa*pH)16pn&R#85@c;a<_2VJNW8JATT=glS<<0X
zmr>(oS*-KSKV_oD5f{qa5i`MPvB|jaS6%T*w6|%&iuN`m<8csvU0%fW!#iKmxwFQw
zF)|PxPH6u~H~j_bbeN7<qTAy~{zxBu4myMo$th7cKIt5E-S&xESzn9VaY<LpW>3pG
zeSXgE05>k3uuCRg$;-eOc#nQB=N`cmL+S3dLLc<MPX{zSxmj;O^L~ym6-p$Cp)A*v
zFdfbrpkREg^fn}D&2r&*Oe#)JKpUb%fX!0x(gB@Mub}ff=~_v^l~D_>nhMVWS2$t_
zT*i%wRVnV~CjIJkKe+{d_Wm_|?H2gi``7TPE%3AVui>k<z|Y>F#%DE;u)73_BzWx=
z!lvzfNXgEamUT`HI-HJl@CJbJeq#9N_)_~1)K;OLFv&xB2k)EW_Gervuur-ng+XRm
zDSV*7V>cVxR8qi>0{YaQ8D13joxo+)%0`&8;;KqiU+lQry5<Ucv8e6}1~~?Dkv=}c
zjP|ok%gp|ijb@$We#Y$s{|r1V@JPG|>yD3jz`gXgKtTrX15|GleEvO1d`0KY>cjd-
zYs44r1T&SSYadU1bm!rng@y%ou?4ksC+n{u`pODz2;B(hf1^>AYB>ksN?tgJy><?h
zWYb|!h#3P98GI_oZBYYmhHqM8J~xb^u-gD9T=HRUxg3kzocJ?<KiD~!&pT-sNr$M$
zeq+Y6aX><Gi%y-AS6{m6nz=~;zXm_=pWyQ!L1IO3m~9F-z0)3S4UVtq3ujM+Pso+O
z&_;;?T~QK@ll8&g`MnA2uWLT8c}h12TVJSE25qqY1x;uQBYTj#WQEQNHAPxiKm}`Y
zxgo?rCh0ZP-|8b>_ujnwW|aB+-W583HZPnP8Bfxs(Wd(?b1iXea(nG2uz8ZAWRmo@
zX!ZRAa|hyNvTPsBk-b^}q9|9RU9}JfWAJrpGen)NLA_ivtk;n#j9AF=20cFw-_6uy
z0IN3)wITV^>M)z~Q`F874xnyG5c4Ayu@9(t)lgdXtpVaUoyTegiq+s_5l{ncHYJ!1
zRs&H{HNNGu+8G!>pykziIQUXo=Sv%mZ0{8iZIdu%==4fVYt$(vctO%BG;YD8EO7;8
z<bW!Jo-FSYuxe$(j9li)CVi4>VJRGcVQCyG%-F3gF$>t?EVuH<Ige6%9H4oX5-)(9
z{*g+Ka<V#n&rkP3Omt%(#A!fwX5c=^)5-|nO0z^Qj-nn1+Ic#g{P0w2?O-~wTtEZ}
zR;cU)(5ihIES_A4rR8<s0ZYfjY`hMlC~8pIhR$dI4N1~`S3zB?*g?3?4LhA<P>_^j
zD$Y=MirWE%b6BJ}ytz`?K@L?IxiQ>e!=G{dse+HF<D8NT<tlMaHOfpuc){a$!)4k5
zs(Vb-_(7+?#_hq~8Ymt*D5+Lk4mX7d!Dn9@SR^M!&7>X2EpWz6$vRfT)5<qlFFv!1
zLfs|nQ{y_*!Mz6%qww?o1oj_PsG$ho>)^@-sx3F1`?JIMPTW0_q^--e4birEWqc?}
z9}Tvy7>u(W;f@G+uc3~lp&GnngAK4YX$H5{86J)L;0h;Qn?h$I*TR?J;+WRU=DRmy
z)u^~8N!ym`dPLVJ$i%@UePo$Fis+-it@>pD6EIt6f~|0Wne7etMosri=1O9wxw07Z
zz%}oRGxI}<hI#jb2~{2Yebs0CKiw}}ySaRgMc3G;MkmZ_t^A;2-VrBbj@Xg;()d+y
zf)nGvF)g$%v@eXqujJ#I#dg&6`cfA<(usCm3Z8ktA><B?&rXIXBje$jXhS#<atr!$
zq^?*o7R|mDek<A$v(CL9bH-ceZzrttqe){UUf%!i+lQ);Cyghd(_oVB%~dgSt|rzI
zx6Z$w$VGdOB@NBMJ-sP%BzicuN6=Rb>T1~n<Nbut;#x|-RQ>APbiJBa%Wh0|r&#VA
zu7QoG&JjNZrze}%1O1-W;a=|`Nsf0GyMnDlR(-e5y$X;#waMJnOJGwO8aJEkuE{!v
z{N9tjPjcKK;tZB0L)T`x003`t*S19|!RttBw*p#U+QzYI_qCn4`7dC_bUggaf!9ef
zSsVqI^)LSS1iU=)-%42u3+UrjSo6IaG^@h4M0wpBO26MI^aCw$UCGKdg)<pCT5@)=
zwfO%<H7u6brl<y;&#JK<#CGb(UqBRJJCwyk*yJS0l9c_FDExw*QfwO77P^zeJCNa8
zW4X;R9@wCOw#UXpR8I^#CuQq_6@g?zWKX*qcWa$fV~m^S0vLss4a5M3lYrBvg8Lf`
zO#9tRfOF7`<yo-|vSHB6-O`PM`#b37;pZ)a&CWCn`hrMd_-Isn-!Ny0b)#)HU+QZF
zb&a5}!4|_1HblCkCHE`lDq<We-It{IgRKCCh&6U$^xFNtxxRQMsyL7|*2&87T=-ms
ziypq;Jl7oK=1wLJ`@t&Y7th`a--$NdZ<=e0HOw80jX#*2pNx;s&m>ys-~R3QKe_qj
zrf{Wa8NxPKn5X&u!Pljz)=%Dq5Y~>J5Tjz|+vbMi?Wp2=i8H@xSYSSJJ#j5EPllGP
zORb;pMlGGf<sQ`1BlPwyL)5LeUvRLf*9jpfVQ>h!hEVUYFgl5PCxxkL)H^M-ObgA^
zsBz}s2;%T*>Kp01N)T;S2L;(#>JkM#XQ}VwE}TK*HR`%tdlT1ss9w3&OF=;7a38Kz
z^ieD2)(@<)t_RoWugAOQdlIHZ!^cIa>TqHPRkbc!Kim81-X-g&`<58ta@Xe$bh=x(
z`W8C<mSDeyPTvx$ZV8pQP&u<)ejAko<v_E4dGrn%y(91eH2OBo+e%5~y2;ac-ikKr
z8x;xP5dBjVTn5`C<M1o_k}h3U5qXwXEnz5L)^A7p?a{OMFV0<rh+TPY-1X7u!_kFS
zRM)a-LUpH;`Zht`CfO!OrqTz;P`-k^fCBt2j09&GTnag5`x6B`z>_#;g74)isFdPV
z>NtO_N=I4LTZ{*W<dw$LWc)2c!)IJl`hbprHlPd8fgE4@+5?drP}txmsvg0C#wn1?
zYWUniGN9-6aIm$V(j^%ll>97XqvT_XABo`Y2_HpK?{mV-hlBA#+});;PPO#3#JW>Y
zO$|pRe@wdA+6?l=7+)jg_aW&xcjM|+JR0^5?fs&z-!28zL_@zF2h{9i9_ZjOS4Cqg
z)bH{8#{53X_4JSUyk7jMuN;1y%L<@aCeOohPKQqkEO1ePorRxw8a_edYf~`<m(y+=
zzD^(cC-bi>KCXC5pA5EsOHcKoMC;<dr_~pcdUvn`?$;M$))xlCTnF)c^MY=%d}$_G
z+!MUGY9Mkfk-(}(ov#g^T`eFCMZr!<-hhu-;%q7o|2OR!Q2?x%!wrS9hQxlXm@lun
zZUkQP{O}+m(n^WjiTi2B@ALTlZl|bilm00rs)h!AVh;Rm$m;`j%B5l$SDkJzyc?-7
zGjX5+LLUCH5vROCSUpOd5%u8C15fQP&j|aFkX^P^)MnJf`bV5C+&=;^J_+6jpi5U(
zBuW06F#IcF{1Z|BHCYg}ytnh6onO=DkQN65V%~)|q3a3`>04Za&ku+AG}T7EAc&lH
zY9$TDEgTXqcMGf&Sq22JFLl&0R9gnr%Z=q-IQ<f1z3hxHH`c)=4(nWtQ{cQn{3)tc
zTH@&p;<<%QfmTg9M(tmViJWaON(>aWT1HUxdu8vGtx~5*^3ZBAQDnYXd$)GgoT}D0
zd^GZKBwamEUL?P${aop{DBvX$xP{nP`%(GB^1n*e=PH6SJl~FIDVMt2DKlw|nIDwT
zm#-2~T+n=Ccw&%>OU^GwJ|B^a0z0_Ojv;nTuKA~=99H@^*@lh9+vGWH190{nkMd2O
zk=zSr@c7*ERRW5MD^j+2c**=l`RC=r^}gln4s_iiIER*<<H$KKcqfH7CQ;kea}55?
zj$E>xjGFJ4&jD4q9QS|3Kjh`|V#j9}KD{89g}0bgVPt%HWD1SI02uyxbs1Uo&2b`s
NcQS9!J9<fw{|CQDwAKIs

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_216434.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_216434.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..685e38f6f113fc0529f842dcf21f312d33204cb5
GIT binary patch
literal 12078
zcmcgyYj6`;cJ9`*rEW>q%LdtCjGqEO@B@3m42;2s888L|12YVu$ZGk8E!iy@k4<Yw
zvzgRL%w#Q1HgS7)H;Bzt&@5EeY;Dz;N~(s;pHRsk_sUtTI;4uK<&XcFz>g$<l5@M&
zvM@4cCR@2xx_$3G=iK)_=ey_XUknC42H|g*Uk(22HVpd%%E-Z#Nj&o@F>Ds2F&ZDi
zE=phgA};0?qsoga98+Lkd|0eW7M8wZIrU;0%Fzm1Nvmizt@*i%*3#O$#2sh@g$*Ti
zwC;OKD89D@YT^6!N&zGJz7lKW(9`PI7&&S~k(nzpS7JarfYH=1aoR9|-!;lJ2rFTf
z<}x>?O<vV-L2ikZrVBPGH*ZjG*`VB-zr0^h+dfg<$uul~FY0s{T~6D**sv{6p9-P8
zFi&~W2K-w#;NR+{Xh(jTeu^&sM19dfSI{NEQIe-MknUH}+kndiy{(|PZ_r9<{ubyR
z8}Org3AzmGEubsuouA+r&9Lju*}1Vy;m)cR)S;f0w;*1@aENxG6akS_B~XXEPaQeo
zI{VJWF4xHyay>8PP6*VoGpF7?o#9+jA#sJE_f3qt0zvnHHz4RxdeY5|1y;hS1qF)G
zS#&A|{G@>Q2>1y>?Qx9-87R?u{J#F7fq<aA>YWk{j5pv7x`KY!w3qQST99H;4;dYb
zkU9{wXHR#(bIx_bvjuW;Ks>04XY(4QSb{J-DGa05*998CtGJWl2yNMfSDC}RHHQ}s
zd|hDGto2T&y^v!QUJYx@@)om&Z1J=j!$KwO7Pe#>>IiLPx3Ps{+4dls1~IS>cKbBU
z0$Z4sEoHZZOzAX?dm4B`JH#3w2W6<9GIj@RMfK$L2hG;HK;vtD7wg%{ma(?ilFN=m
zlq+Yqvi8@Kv&&-;<tkW=-3bN&`!fZN^((eQ|5yUmgQ#o;q99s^qLV41N*0%>YjU&-
zjhxlXJZ$+oX;P+ys&Zx}kFjB`tgT-W%+A$t9>a52EsrBq9h40m7`B|6^X(NaYiEm4
zKV)h7+lj^S%RR7iHEfMElM-LZ$vW8zajtgd)SX8Gvz6?wbtBeZg&CnWceS!g5AEKh
zjw-2+wOM7QI`Eu2YS;6?%)`#3#dQnSv9)a7G#p%7Hw~vPRKK2^wTL^kVUwOH*#_1q
zuh>g#Y06T>F~8K`+%fOjq$L%!RFJK2-LA>(Dsz^ezrEb~X<Xmi7v`slZDgBr=BJsh
zXPd>-y$7`sYGJE$`fJH<!fb-w&9)5Nv)OEd-JQ?W$r?}IXVV5~qZ;-~W*@TBnL?$N
zY?WO4!dXJJsu=!xuL@(ULwkRqW@-I_nx&0Zu&t67$Z7~GyBcllcDzBRgx+{bN{vnf
zyIw+rO2wVJk1e8=S8KrH<ZAp}dy|=K_6>F~yYH@EK2<n2m8)kR*(J#)@<}+!9tN7m
zoVcKJe>fCaLAHs3gM>=dbZ~0SJ0Mp8wpKOj4qO$~{@|dOVMrjXAg$xX89>{Z(<mr{
zBZ7X6@eeTWQP&VHs66!0H9<K#<P$V*#_b#M3Tk9s1A?}H#P1F^HwkK~SOr;HP}2S&
zRN`k4f)UgKNO=XlJLn%B^0?eI?c6V@-N<?i>OS;g5Z)3reF3pd+c!NXmYSiILA#c*
zBDyXRWQJ(3%RRc5yqZn+<s^OCQqLN%$0z7BHT1#g*U~<Ll*^~buI6SyVu0~ajJX0s
zFx)&)f<Y@PD92!q)DXF*CFp{Z&@e(VDCrXl<m8agCDteqQpF%h_75?EpvX8XP;2c$
z4Pu>{4@|wkzdrz_(pS!3g(X3=6@dAZzDl>pBjB*US6v{1K0g1XfV%|(7~Gz#URu!h
zxdMYj{Xs$1=Nf7eR0C+0QK82@;zbpq)fEU>2Z;?xkOodjh$}AO9ziSi2WB{vfF6mE
zEFf;9z<!vT9X~ky_vwa7KXWwz9riX1La*JyLBFpK;Gr+r5MVqFLGS2T1LPWpe8Cpi
zs5>}1F;YJ^<$@v??31A1=koYrw=^}jwluc@MKDNAuB%?g=N)0LK>yH^2EGB<7sj3+
zz(~VPU9^ttUDB6^k36D`Gbf`bx$z~cEZp^^z%r|iYdM@dkSeGNzw>BaK3!Cv7~+c>
z7FD*i$+B2j#ha?aZ>KE|?h<cthEF`Q7RII$?R-)FJe9J(8SYL~MO<^DgfFh+srqnN
z+EB1)E$0p8Ns6ah!d;Jz*4PMd-1*g++wb3cKRG^Mo2op-8xMt#re8^6d1J*_%<ZXL
zQ}gEe?o@RLZ|n#keQdDA&VSj#1-WB!S7M5{@8J!5=35skzQY%)?;U#ZKHuEK8+xE}
zV7&IFJ7MDn;vXf;_@dp(DZcOx-mq`s=!2GjHa}>)f9l~7f8YXdxDY=2L{H7sL~CN*
ziP}YL!*7{yrteKJ=?{mGJb`K&f7&-Y5Fg;&iIRCOU)Gi?d}G<LFM_8F%&~61U`L{j
zFW41Prwi<yCT@(V(R?3^9*Z4K*b~8D^(H27ZJ#gW%bFLOm#9M#{E5{*+ZJ!*T9fKu
zx#w-kfv=4VX1-?sgR&)SXM{-G9bYzbG}jitl5q3(>SQBttBq*WwvvRFw^b*bd24+{
z^|-+Pg`2a*2I9uVF20~PqIzVp%~r>&xvE4<au;9T!aG{#uPxBubu0|r`{<#AZ#&C7
z&ZbK%e%YH;B`(bUXddTF8yBq4mALg_MEfKoU7hGmw(}LOyrXrY>VfUM@dris8y@!Z
z`+FA8T;}&(<{g(`s>6)xI1tgSYOul*uJe~=;@XV!_L^h|Z>xhL*&N&;Z>vg{^VYhE
z_OZ2ytBxN`T;MHeU<CO&GjlC^E#~HmZaU^1iH_UHZXHW)txcKgc%m+%d`uW)wTU9$
zQj^@rTUvOcC89|~*?~kgZ*?YnVM6AeyrrEd+HYu9>oDW~)jgPw3U_R{!H&I}G9c|6
zzOX8}l`m}KjZO0x7S4UwxNw2r+x1Y#@9pJ{y|Behg<p(w6|qU)RGKK`P31}Lyy`b@
z*dsM>EHv^p2YBO~;m)+y7%TfR`-srb5K$sl$e9zi-xF0&Aa95oV*RkK=-(5&pTYUX
z1pGrmJ3i?h8W;=;8c~ITG8`8T6w{6vG>kVm!T3DLAj$z<<;DA6HyF-Ob)V{IF%}z^
zsX5<EK)<02X;{TZ)R6Xup4G5;K01w~dkC#SSOVdJfZ{mzW1Llo>w~CuF%0KH_fcI`
z->-lk<@Pzl52bnTUw4%<h6t%6x(G<qs!xaz5kv-F3@jnui7>eDr~wHnQ5(>2Y#314
z`at6{+S`Dx&eHKs<nz<l<kg$V=clj9D>jkOPhXQ)ZX%zbz9z4_gWw4S9AnjIF{eht
zVj}$dS|Mm?@3kS1SHwb|tXBcp(aIvpXXtkLmx|4N4pE$iJ0V&@8Gq+sdj$U0g(&PE
zTD%3z{AdqCnG)5}uYjJadU8Mwf--;&HIngUcA~6OP@U{L*TH0wSO9I>9pNx@8NLE>
zV8lJzN4pPB@6Om(+B-hs_5}ehxkS4hXsSOj;s;a_I0y-enFi578$|yZ#vT#I88S-7
zI$}Yt2h2^1sJ(mb*Vn(kzR<WpKRC!AJd<iT%M)kQ1QmHdYI>?xZq+a@kY$P?a%urw
z4!XwxjsnE=3<_!h1;Hr>VO?>)MI#S7K?IIYlKB%vaHFUXMIIDM8p1yj9GeJAKofTX
zA_AzHGi-E*vRLM=x1`~3-Eh!M0Qk`q1z=NP{}sj_lhjOGwC&^0a7TDNO`2y8L=VUr
zDyE$^#0{JqS;a=apyGFA#iFWWk*r8-4dEX>G8fJk$BRMZnYr`Hj$gn1_1g;_-yXYv
zY{}di(L7fuDNVTZIf1Dyu?k*QlqPhMw%Adm>OtS@B8?F@d_*m3{)~+E&b}9ak8}UU
z2Wi4IV~iSO<0)b**LL&Z+`(j7s<;;9L=Eds5nH&bn{{(_Nj&A)^?i#i&#gLj;i?Uz
zEa8*lf(iJfCwG^k-H$fYv%iCssC#qI1`trVBYm(C(#^TjnR29?LyC}+RkFC~H^6gr
zEH(`LeSJWB4|qY2#k2Yn)sCRxx_}-8?yBU|Bb~jF3V4w#ab3vEt7cWK8r{cf^)&3D
zkY-I6=ko)xY7%2Lh*Q?B!&z_8T5~i`Yveu+ql39F1fe}C4ClG=%Qc6zoAd>AndnLQ
z|LPCH5*w|TJlYV!YB%DM)-=nhWtAaa&It23^kFCHXf4_a;GbKYvpg<-Sn)hJ_q9io
zkUogCkr==W3bo2Rs}sBYGgx<$B_yu{OR^-i37oPYa+4Lz)0^xHQY@A6W#}ZICas@_
z6O}C`Go=(Nore9Lr5G|4<4Y7%hEnhn#hjs7UZP|?sxYqg?N~E1rk5zVL=k(Xm*+-a
zjRP=0pZ`LIZN7fes)KhBBxLFT<60VEkLA%cv=v#+knx3;HomaZe<iN8RvyhCaivW;
zGm+;}h&2tDLg&^6+A8mq4fb!=>mDk|sei}1Y9Py+*aBMelEMnpR#7WL3WboFH4m3d
z>D)M{b%Q)3@(PLT%Yg?_pYJrkdi}Cv(&TN`F4KoAb9*DDWoyD3et5h6O2AEp8H9(l
z^EtpwN_q&qAXmNKF-Rcr0ipga1}#bk1xjcHkyenQSwX9~f=u8F(kv^;P^};xC3)kJ
zN1j2^3VJP&pbjpgnw9^7;Is;A(F?<j09jC78}d$qch3DGgBF4rMTKhcTlv5%<pIz&
z#_SS{CIFJX!Jvr|)R1g$l7Lb*5~@I@D&*%9lz|BtO<;V&>xG<Z&^^-cv@i&yN?1wZ
z_Xvt1kD!`_CQ%G-LAB&LQi*;ed|XibJpK{5g=PFr_z?7DaKZ=PHN+vip%lJpK{G88
zltVOJ<EABn0J2<Jyp>Hzu*>iQ#AJQ}tP}7Hl*5(`V+ibMquS4OaFaC{XD&o9e0(%~
zIHE|ChL}Ejh;#prEL~KUE|R5)Qxnxhm{=3%;H~9}iz#AHxC248z0tj~-h?W$H$_&0
zKY^@)8|enc26L=4`T^I;Q#-<4k0|rZiRcN=#;FtPIYWx7TBd4wsy5j>uSikN%Ty~*
zwf=VEo9p+kr>G<0&L@OHgulI<E&g7@4!8XjQN2u{8+_6|Z%Gj?%S0PbwEctnTk<}c
zA^<)<UhDN|Mi?V$n%NiK7dyjQxM_Z?GezzScRr?!&=-Sc<^$;2PR^ScpBrA>>in(!
zo8o)L4|@OUy?=af3AuZKCDs`8a=pJdl!~62FUn%Qv2o5E55(S$)x^nJW8C=jiJRBw
zuBQriN7RogGjMdo%A?1*ojg^NUYCEW#0}flGd)!+4BNoVVX(X)`&6rhV&bJ@oeGNe
zxy5DCQ%^~?p=6a>Uuw`msWGSYsYz=nT2*2?(~a>Mj3r(XnY>|IRb$2-&mEX`%k1v>
zZjMQGB`@+7Z3|_5Mf(GsFYj2~e)v&^^Y)2bCl>H;iTea{%^b$VCm!nzGmfYu))Czn
zJ}gaEA6NDh7tECzd6LXrBiB3E%-Lgu@$JjzoxFMHS9@=_-)c{p8zP!VM(fN-bcAcY
z**@2v82{P9`Lb_n?$s<A+at<HmZDi_+{qnH1d_eCCi#+v`Q8VrB}*5$c1o*mel+({
zay(Vq7$Lvtfb}Sg2V=*6N0hAUFyl6u2Ffzi9&P{W#O(F>^%Pm2c=z_@TbJjXQkAXC
zmF;|Gd#duyh3m_QPVt9MEuDUM`Sb_;=?_weE-jLm7FCxdG)_!r4j~gq2m1?%Jh^U&
zEIj`aoT^v3MnbBPnpM*{x?F;jM8hh@Cpj&+LqKwU06?sz6*4@^r-tD_H~{Cf97tQP
z3s6TE0Eci?W4{8RVP5x)bOFxvP6s^s`=pbBV+K%RtX2kSA;pGLf83EEXHTBq1+%W6
zeE((2n!7xbXr83UH+ggbRI^u?ycZCV05JT@7NM7U{>cMR*qI)L$YAzTLc@NbRWb#@
za6jx3ij@H$CG}2%f*}KI0Du6Oz~PKLC3o3h-6we#0CI^>{4CY4Kp+EZB*f>@KU%%u
z$b)*N+CLuz2t($3KFtCR#jB{|^$LF_2b?K@8@e75MTj_n`54+~5b$6=L=l3j63~Ea
zBL*%G1PPcwg-FnNKOA!d2GGJkVvv(W1P08fi0(tt0E$H8kKh6GV~Cta=C4sYs}n?v
z&-^)*35uRc<|im2{!>SMrwRyq(VR=w&mp3A($zN=^adon(2a`lz5v=WSt~9kBvVdK
z_>jRDeMQV|U`oI*@F{EpaG4nFGgqQlGS*v1M%>ZD@Zq%C8k^?LW#Qvsd}fYEkH;8p
ze_}jEIhUzDJhf-uGJj^lk)k@6scxR?et2fF_iTzf2QMrZTWoky6kOBloSD}-pwcxX
znj%ZS>`jmfM}p+8@MJAA{IZ30BzjY1^)gw{ll4hvzG;3sMIK%zkMrd5hfNQe6nO?r
zud#4uG&=h8uA3+3PNa-A%f>q1SeNXZ-?@O_t4<mBhmSqV7=19=vA4hK63q_rt?9mL
ziFiBQ@uHcbtZN1U3@#WRdm(3yUzqKVcYkHSU3{xJ1#boTjj~8@q#~+K7Z!1i@&1G|
zer4HK4G$l8)xRdcCR4VS49|G<Y^3UjZdHp630PV2&E>OqIMq%4oc?F<_EeD+CGHq_
za_^#QuV^ehxynTgD}?gTo<jtGz{Eq!SNkF1Upa8wqjUcQlWS<878G*4*Q!nG!&$g-
zevkUpIsblAvpF7}OVE#yCZr7!;48=~Mx-`bElYqAg5!rm2>ueu>W6T+$CHwO7wu<w
z6`!Ep45&2paxQuiN!a*7m&YCOx*DBo8HmFf^kp8(8(T%VD!K=ql;mGT+D>}qMs+Z!
zQ1rJDi5T70$DBiHN_vuYjrjq%Gvlbpka^{lJeT4rpBM=S0_e(+d)B0rW|O++XBe+1
zDEnrad%*km@C!^q1V_$n3m;#@q&PgrwE}3|c5mAfaVXsJ3QAS;e8+=bOI0U%Re87z
z9FX0KvgZ_LuLl@wU(h}%c{rW2T@0TD@S-b>g;v!nlO}v@wE&~6;U005ITZ|=)gG8j
z^mQs3H2W(UT!Wb3paQF;zlI<!n541SkHCKsCg4q2AmkLY1JMchM9?3c@WEU55%JG~
zf^v8$DCppyf`K5YMMiQAlSk3N7tVQo0Y4+?-toyvC7NX9!WA?UQCc;mpu{N?NKmOT
z*{%Wq2>mrC_FtN2;=rh%o*3~SWWEJv<k1YA2Nk`l#Bux&81-+M;oq?m0K*D%xbV}`
zk4qmD_J{^KTocT~k;T(z7HKbE*uNMEu433*iVg)FGTmWCI?EM!Ew0zC>+ox|$Sk}b
z*X#8DRdubJ2!rN7ESPRf+UkfopBGUI#i|2S5T80ecC0G8aJ&}W$?ytX8?Rlpi`has
zTO?+;$l0x87Vy5rTr6fwFk`{YrRb&q*oLytl$e5gR*c#x5y@v1*m?N>_*11Fw<PS#
zWlelp(<%m;g?GPo-FJz}#q%F5pC91Q4~V&R)$ZH=TmDrfkv?)%`d;xYU-9!-{LfJ7
z(>*o#Wjyxo?4|gnRScz*foI}(^*tQh|K?Mr1#jglZ#K*|tYVOyuUu|A!Z#feGwH(O
hS$`a=2SU2J^%?p;Yjxn(rw1@odCFMvF)8l5{{^R56h8m}

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_219875.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_219875.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6d69c4169ca31ed4f31702d0843d3e4c8c8481d9
GIT binary patch
literal 11838
zcmcgSYit|GnY(<GyUUkemaG@8hfUdf`w`pnLw?(m6)Se)L{h?|xTGwJ5~U?&$Lg}B
ziyTZQ#fiG+AS&s>ben^j*g%ycK-A)Zs)qyW-T`-9)2N884-nA&G4792r@)~<?(Ume
zE=4PpCAWtgfV1=XzL{^nnfYGBe`Od00cm0CvupoZK@h)36**Zlg=gnf1Tjaj1WS5}
zKIu#Lk+`lHQ}(GyLP5C65j>KNEPZi1{d^m$u?kkns#rCv`H_m%vf2l_`^rr)^sF9m
zBn-orFwhKC27}%b1_c-|HwU8W<>o-^cv%c8OV!rafoRgd<jR%#F^2R*1k3!Gd|<q<
zkah@m+9;KBbJpZmjhJ&=q%v#Xpxv@TyLE&1f(_aW^S66ww&*?8{R~0!w@<Gp*d1)K
zn;0p~Lu<(f?b|kJFWsQM%uTV|^Y;N=<?pHcXtsu}$Pd9*Vr(XV@5{7$l%=ppkA|&+
z8I3UG|JC{=3iI;NV_>UcHWORR+TJ7k%pd{GS?*hIlJ>f%i19s7(OG$V9AyLvnGQ;J
zl}MlHe)VLR<MR2w(~gVJ)q0+*b&2%Z*Is@7QU>xVNGQUt5Dnu~V-A17Ipp?>dQ`sQ
z<R<)2LueY9g?L(xGIWsbN|C%Ml072X1$bJQZ`?CH<QJ8r?wg|a@}=(cR~%iO763U!
z8K*}X5^$pa{AI`KH%|9Bx?Dw2mlFa&BJ3FpNOMF0&4$xR=Gw@0^kvEWnf_qWCXk9O
zWN{88TJE~UD|xegMS~@qz^Zsl7Iqt7z;ByY6GX6-FXBt5f!<&lU&a^Uw(SAL1f2L1
ze)}}=fG^16mh;;Ir+ivN5Yqq?tiU5c4cgE+m3#$nM&snrgZQ~FvE&-<c$_M}lDBLL
zFS`zmSIuw6B{gr7smJTH<*cumRiIIFXwApxbtCX<dA#5b-j;)#f1Oqt8q-_D6MPjY
zQsS=_Ea6e0>&j~oU8t9@K|QE1)1#Gpg0(yey-LL6b=W!?hOb_St(SX(bvab#QQEwj
zw|EqR>>iEeQQ!|$@;ZX`IiuxM4C?F&-WiZh3WB%sJ9w+C^iL5{^6g1DFT40%Iiqcb
zgZ3PFYnJ3}fv^1*f0d)aHQv6CJ8INA4Y!ijJkZK?1sixfzZ0M2-M9oN8_o!V!h8<y
zfmV$9{4N9=H=&Az`Txw_;~T%Vv#KoZWDf03eA7s-gv#(FXJ3o6Y|0k0d({LdjK-&M
z_w#Gxnd~`g-Vnx^g=yJ@6U}_%a~yBo1iob*d>h}y?|GiWX^_RN9_`X5>(6tpv+Hl?
z+xa#u?OM@Vf_wSgbG|Lhuxx>E;P=XRVwwSrdN_MlUb?fWUK=HU5Ks~S?-Eh*ts7vF
zcjsFtiIRJQ`@V%G-JA7NC42UQjl79fjP3$GS(>wlWmyJg3;aI5o^O0$kZ&1D+{~4^
z<ypXNAs>dF>fzwZ5}XNTNU+#RQOyQ!PPjQ_TMWSuCs6OIF{gi2RQm$g+#E+i>r;ee
zC%NtDV-ghsuV|Ryd_$ab%rVT0Di=F^T~v+@kBb^7=Nun$i|T1N=ktqNkJsl6w6}?R
zuo(OS_q!9EsFom9(8Iz|K2be9jzE;GFCeP@0UzfU4bFgXY}n;+vaEf-NOp?k36VU>
zA&JEmpbVL#qTV0ihFQ16Ikr|D%@zl9isRW<*BY#At#xoR3or<#P-fi0X|4oKmdCE)
z(2*9E6R>(UWDb}M*-xkl6UfDJ(JU8-#~nkQZ)!r+;SXXP<r(Jufea2UHT#FB-7o?k
zGxGta`aB*#v`XJ`Q9Fu^HV(Ko>Tr*<nf6g&zGEW5`9;m3^i?}uuBkE6ur{<vjw0;q
zPA|+)Iz{y)8XCBMZP*jQ+be1&oUTzfD;oSRr`IhFq({4%851{)D%2v9lOj1NYFxO>
zzaLmq{b!{=U24AJ<3{~3wY&Km%<l|b^NlxxT{<3U_H(Z0fO~AB8EVaNRQ5W?oPn_^
zZ_~t02Q)e03<P}R4wny3LR;&>R}Soh9+8oN9HVY--0kK1fHu%Zgg*^dXNdTwn<OY^
zrZLhOBU6U5(8(vXapq#=V$7DJ%R{HXGF#`gv)ULL>qwb*h0Z@&S5KGJ#D|5F=A^1H
zZL%hd>jhJN=v>-b78?+(_E6W8g5v1S_+g=>X@O1^90_%&>5^D`yj<AcD9}xz(`m+>
zET|EfnglJ-dqbyJ7;AJuU~He9xOe{U`Gj+!JXL#CV2*~)q&MtYF&2C{I5#vq6m!N)
zQpI+`Xb+uzVzfl}#ad?%exkUiy{k=-i36$XcEQ@d(3>(IKob>y$j#lHy&1Q}yHh2t
z0@I4-Fh+|%B4c}F+S#i3LBX;|VD==gFR;JpTp0TFdrPH4^96yqAOY6LI%ju(G#Rgr
z-4HB06L!JUE->v2p2aKw)Vg@}bKgU~u)kMedP8Tv0+ybOoQrzn-N~ZXf3*Ix?B`{V
z=~KX6OTk?EY<X-jWwC`WJb@J+h@FmiEHf=(GHpex8lD}FlktvJaf@JW32V{joQ<4~
zo{86gW=Wh%l-zAz=oEJBTim%+`!D3uPT|mnhrPm~9>Ml%@@n5>x<5>=m`h@Z1an<j
zowk<7E(q58giWyQPD~2s7HETB+bs1_Z(J3-DwyiRDnwJsY)Q-#8%kK_y`Oa^0*SLi
z#omRRLd9{R^!U>LhqaF`^*-GBt7FO6-w{r}Bb2_AuG|s#B(D6dHF5Q>Z;=%04+@os
zmTccBN$Y7ctXZ*?%$3fT{;2KFEAy|UEVa;5R2(aveLMd8XRQe~ap3Md3&TR)F`?*K
z*pS|^OD`WjL!xlu@?-PCuv%`>%Pp!EV_{7FkuzQx8=5x?#`**tuEu4$RiInH*zsk<
z=M5?P2rw5mx-jx)tVp0Mp{8R#w9XaJ7Q-=b{b9MFs|c%CbjIkOc&T7*5OfXiYgTs?
z#@5w6gt6eIkLT786>a_7)+if25P3D`6zHn>nZ(|oS%5pQE;xnS0|NC*=u}#3jM~1>
zKhYUxbP-*&I93$D@>^ZQS5RjnOw<!|Cu)DIYkme7oDj)(Me>HI!E(ya)u1M=f5JN)
z03og6+<_@>+yy2|HX(h2UD5Z!eYvf=ZMtoqBY0vY3$Rug0Jxw!s0nI$GG9MSB9|nn
z+n^UaEbp6m9j}$lS)~5`<_iR?;&mSrtXgjWnE3l_Eav+pjD|G#x&*dSCXFD$wl3k3
z6&Hx_lY#77NAfrbyqecUOdchyH_sf<n#bXJppi|HpdR5PBj|l|*c4WU%^oGIeNPuO
zym(et$ty;{$XlP}$Oo@{Q7<yH(VQMKhX;9FDd5|Ssiy$q1yp3578+>HI$~=S%d~<K
zH-IcEfI=r}U1IgJi9AlSiXa0k+satVEsSLhWZf0sfL&o?1eq)A607I6vY`zQh(13|
zB<to!%n=i>g`Iy9oyyFbiM(_g*4Dh~NHX{GkMtb(V7KydI6K=0{n;^K?OR!s{>8J5
zlfa)Bk0h@t|43PS(23w_p5cuVh`c|b?`NnZ30{Ahuruoo_G#u4HqEO2*PIjX>S;^$
z*pxp|?Vg-+daJvdo7;}q6&!LPL=Ee{KJ0S4GEp;pB9M?k?0Ys2+21KQi@8NWBuL^+
zK0G;IN*+-WApsr>I2j&Y(Fnw1U@6L;H5(fI3yoy5an(Qx1Tj??PhaVj%z6j3h}wWJ
z;Pg5!`jLdI4uwM8Tc}yr;dPD;vd*K^yEC>Oi<UkfKqfP`3;k_P9bO-pt^T7>kboxu
z)!z=;e}#xAI^zr#p`vGFSK>`VMQcje_Qe}t_J7{LWLY}(uu?enW@_JCg6^%f&h)if
zS*qds0Z(#({s+?2|Avf1d;~sY#{h{JJB`d|*bs^JYVcoN*El=$h-$D}12?%rTn0w~
z?9f_NR<grj%u7xNwoFCU^<no7yM+TuLU3=R>>ZRL<;5YMa7`$~?hp2SbX|^&nNGSy
z)ev|=qS86_E{9BT?f}YOK^fX_&I6er9W7*<{}sxlbo{u)*U}BS$xQ(ki_m`uC+SZi
zVpT_&%rirgp<8D|ouSFFEe+KhksHy;$TZl$I{l0`qK%RfL#Q)N6+|b&R=oa*sz|CX
z#VZo;CPtF4oPTJ0*!!E>hsDXNODWZ*Bvp~7=$QkN10TBQMrTJKQMRPYmZWS?bPV3A
zUSym^&&PZ3UA=pCq4&!-KY#PF?r5lU#b}D!BJR-HKPr^8CUoi>13{T*c1L!@q-XAQ
z&v$>^lX(57{h#*Ve_JR&B$OOZ79aWN*MI%?uij4f4=ne)gnrj!0~<P-Hd~OT|3f{H
z%7o6R>vrGkyW97ZfrZ{jb^D{5IcAoL4L&y87CTXA!@alezV(xSsZ%{i&(g8i9-FIC
z=T|CAv{q1+ASP%cnlKk_{eS^tY<KGC>*LmV@5haBtfH1^XL?)d9re8WV{N?kBRWiC
zi^lo`I$_(m1I9#lkM#o@4KEk}jBzZ{gRx<-e!<-QV+pO+td<cp6FP?vx~RS39v-?D
z@N-?T<*wX2j!Xz_A{~Vs8%Md41v*j6Dnt?+A6hVL6mlCFF?kJ)0hlGI2!c7llPD_A
zDlsmDO(F$0iO6-v5Q0QlDi{&bwJrtF{lqDsxg#s45lV(y`|>JKkIJlRqvqB5j00AK
zpGGs>!So|@Pzz=dNCSwY!N@_~T9iEB;~%e+*2x<9>_aXXjT(yJbr>I+Rk+0Kk+H*4
zD1VXi%B!-JEG^68pn*4Rv}PoyVcnS(AxM@0=uCZ$KWKN5nZaWImk~jVN26{6#}WWZ
z^At;?2qRBRUzVAMlQa#16)=gIyp$=VdDbY~WVexAT$kkChB<V3%^sr+k+;_*_rl)f
zH=DMKuLmU$V|bLH3(Y+^`ZisbxowgXA9Po@HJ+;8)wQR($BqMa(~7Pm)7zw82(Lk$
zt9mVta|DO+u7Dmw+8jbUZubNzl}r$?>3F8FdMr~|ImW@?6(n884WrUE$m}#m=SENi
zxFQ5MiZZ05IHWg4trKE;W6pO)^$iFGLR1gJc|M5Xxj?y2NIFjIpPX{Lr`>iVcOBt%
zp$zQ>RzA`TBc|Igsytq2Kvay4!|z@03W9kZWp6+Rktm1P2X5P>;~EGdt{2+;$flRI
zmGqS~7W16i=iURb2!j6vPFRRYQ`VWok;5MxiFIP#b2wRbIHfv_RgHD#NaV<^Q%HG%
z-U&}fj>dW)QI$zmcYH^@H-0j?^VpJMkxy24r&QfZsxob{Mn`6=LKo1Wha!hSOO4Hr
zrKs9v$}Uj$M8m?!k}XA@3Y}VEEHeX<ftWK<7#>J5O}Ea3PJ|U{#uVKVxf)XmD6I5^
zw#;-zx?<|MW!?}!nJ7xp%_taT3ZIPDMY>=RgE3kZ*%K=i3>9&uV5nKvHwgNMlzz{$
zu3gZzFLW+&DcvE^t{E*e4WSKFeS%Es8bBv9#_)Heq!hWDH6V?aWGc}F#_*)9rem#<
zVEDVJ{Y)C%dRJsLc0Hk-=NCw!62d`kD9TeX(;w-FP>6HBIBrQXHOoxBz|?;-b?-ZO
zzmsCxLuXcCAt+k5BSlv%({%z}7avT~c9@Db&vZw+V^#>GEz`9ET^oNbMel-@Q7AA~
z3oK2lDzUn8sbI_GgvwaK{2Pdqttl9;BEL$>@d>l4K%RymuzJCMF<|HMhp|9c1=YL?
z#19C@poZ7*_~{Az{CO}WqnFp_jI78vavnGksQB3>k21QSAsIvuL<jH_&E~NB9Irdi
zV+|5PLkd>$Ao~P6g5vt?60A4d56Xbd2Lt~{(#Q%UpITypXW9NdbL8R&N${LEf%%K)
zP=Km}Cu3eyM&L&(_%{|VqaCJrD&PFMe8{I>bI#cdR1XMztt9ZV#9foZ@S1`|H<sge
zN-87YO%lO&R6=4Ii(HVJ@Gb(rpCpwbh&ADM2C&4=ys)(H2U)((Z$Oe*)O0znIlUgq
z6To8myQo<)*aE*+N%ZQb#wBOMj}A?)z?H-;CG}$;i~Ab@`7!+br!&Hqp4k`K_rZav
z^Zkxk=bf|jXC*oDsJtzyYD-dW84LT?`Ouj#$Sq^kg585P!D^Z5h;+mh0<}Fh{fM$B
zRrVxhPlGiNLOjYvj^(tj7^tu-vU8>?QkBw|g-(DB2XAA4^m3$WSzjgSq16^T@m0om
zcr9j)o{R5ztgBnrp?GGZHQ`L@T0nYcB%C$Yn_{XY=@y?%G^Ch)%giBxIkeceIGJKP
zku0>%^hNq&idbigsa$621g0+TOq8XVz01r&fjPLiW6_ynj)UYgTcW39JCL(7%fyQl
zii9OzCYW}ETSOHgtpoD3GeuP{Q#OIJeNuO?@or;^YDubEBx#7GpPaxflBD4`P=J3D
zl0oH*op1PC1nGgB9gs&LMslTVruD&^ajV*7Jh+oDHJ*CS;04oFx%PL50iXlLOM|+g
zKA@M$15;ZACbJHtM8<><8X)><7$(teggc|@;gIr&m&Ga830BS^RIq;y*9M<!D&U5v
zGndovcC^~n_|o8qMRuG+rU14Hu=@)4BI`Cww*cXDJt(^h8Ge0q42s%8hxD>V4?3jR
zE+51cMA9KLnFl7{RA6E%AZj_cf65#1Z*W-(CBl3h=XM3;umm>`GyMX7{+p16h!sm=
z=z@Gq!NrA_js0H~eOd8&#be#EQ0EJJ>cIwBYIt0KQBc){PKOUfyW_TRXribI9*v3?
zwM*p>r&EP}p^K|Dp)ZaGSJf($CUkbyOwa|P9(>Y(gPGS{#9_M<zy3ZY;0>7j2sKzG
z3B*EKG)YTu^1_?$6uicXI=RGEqJEuo3Su==<8D!N68|GiRE`V>xH{;Q;u@MO?r}d@
zj7s1o-VRY6n40jqrTsy&1hYn@B&Irsd|vib0@EqU9$m+nkDc<mk8=M2z{u<LFMx@#
zsw7GB_XPbrg82`ke1$ZJif>ols#?(%g*E6&AkHneJ@lt{?)q9umNcaIA6ROIXBqt&
zat*@2crw|0`Gp|dVtew^Ykw(-fAPd-qilheEsV1Hnm2-2ttntMf7nInw|%p_SfN;L
zA{4sYWw**!6{kqDWz|R+&B(Z2HQ}n6C@7lSGrMQif~!`!T7avCa<vFoi{)wwu5KgD
z))_v+|DhCBpD76i{j3>H*@C+-DTu<Nuhlgqlh)F=`CI&|5|y`A+@a@bsod25Q}3r<
zseJO>uRDI#fy*n5c@^QUY6uN=d*If<GcDA<zCf0cRk3|{I_5i82`DaH#-F8q4~zc2
z{5R#vs{_kdUBXpY(mk^5o)p}Z$@7!KN$wef{kqLWwnq2Ob<6@T6ca^1E&sF}7Z=^X
o^#0t7i^(_prLSjn*~1AQzy;W6EoEfE*BykZCS|O>Md1_uzc22xcK`qY

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_243114.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_243114.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..42dc858fd1956e79bd9d63201dc44fdf436a9741
GIT binary patch
literal 13580
zcmdTqX>41^neRQ`r$kaBby>1(owjUQvTVhUVq3QzSxOY2v6V73A0_Lg{7Csw9<fZ3
zB4iV+sq`?F1~AnWFdYkPx(E;^TOdxii#k{=$_b5%`_>BxTLTOKQ{og@^v~`$^GJ%K
zDa&aJEOsQ$o9p{#=9`)Cn)w%<PEA4B^7cpPuT)XgpKvA>^vT3yvxK6qQ7pyM6Vw^;
zOP`@ho|%-Kk<yfd9wT^CpyHR^%rbA$w~~ct<m<GOIHY5#zA_N7(%j|4QdahsG>uis
z;NFcHfXO5&FL<(?mBXKcRkErNq^z1%E^2PU{BU?C2<<aL=ra1yvf5|rLzf=avq9+C
zbs$D$BNVIuCB2w;ixFqG4(0Q6Q<ycZQ*K<R+_X-4!8+xIxyy&Ota){1(<`iDEpJh0
zv}`3?<e<h%#2IDAY_UTRyQ1VR*_k|ORk}{AvUSQgty7M%D%o<tn$K=wE8e2d7+{AO
z(&I8-q3gFk!UGwwCwCAT6;9*d;~+%WD4yc!S(>88;FlfT$@PI+X?7h&-AY1uB!Gj#
zI9PgC^}R4jc?mBaW{y$y%)leuWxYgT+)nsS2-49h_jC0!L3(*~ce5ayw7JH2iJvAx
za(Q$Yj+$ID0NRYhUtVs!<mAR((>A-K@x0AGZgZb^PVKObIHuf<F3#TQc1%t;Laq_;
zwpb@^?#Y>nozqvWP-Jy;qi*Mv)$U{+*5;PoO-(IOBUr4g<HC$>$~`*kuo9@5DL_BY
zVfLVapX(4rUTRsB7pV5PEvZY9y7YsN>%H^6adnlqGoj57?C~EB4kAtYl6nhLZ~0a8
zjn;+MxOzKOYV-k#?>X;Fj{yfIC_0Y5)Y)h4PbCKInH&tylB}T`;%k&Uy>?^i6~kD>
zz|!fJQg6_bNw?JSYF;@D{bWGo*aIxhD^sU<7P|9jc@3|6COFj^I32GAj!pfDVX0xJ
z7%=fNjD^>+l3AD&uEVur9qCE`1cZD8h`c8t6dOR~^IBdq4*h!!ypETWl#w@NjntSm
zI#>;lDT8kE<U(Y8;Kb<hEO--3FG^D!-czsv6wT))p=23Qg&ROIe0~y2o&jYhw1u&;
zgbE%DZ-Eqy$y4NpQ!EC)AhjcgFcpeDC4BLiCRMxob*GbK+H^9VNa5hkv#^W#LQHi}
zDPQt8!c@kW@@0f;C<i!v03PA<@JI>KO-7JnP9eyg?(+`rzr-P}984xCiX&V`!QnL$
z)YF`EgtJXrM_EB`<7`tS4naEMw6WxbbNJK=ieV^l?{2Q&BuJ*+oS=5uZ4(Zc6{l6R
z4$dhi>3)G85R@+9B)~&1q*JbRYL?3fe4GIzl}(Sb)=BX*B{1A1{H6re1*>y-*yV7$
z1bwoXR9+|cl*-ES907s&o#M<GsT}hr2P@Dnfu0pq$+p&AtH~yT0lvwM!uKM4FE+V0
z0U%+Y>qVRnqkfVTjyt$1#{~Br)M9Sv`Uxz7m-<#s>GH1j`}>2Hac!Bm`+-)UkxQub
z0gJ!lgXZh|=J$mL!-{z6E~MJ!?O4CUV0y1T;12Z8l?E>(Lv6S@Vz}8F>H4fP(u=mW
zAw!$@NWxt7z9HBZw9Ji%4kL3zgo)VhD53?QU5HvxV>>dpdj}GQmiOskOHeU)HuM}S
z+#cp4gEuclrJvcN3bgYODm>)vU)JRXD*Y$DJ&ANeV|cGJa6C}!KNvh2>iVcM)H`oQ
zng(yzLzv|$|Ea*S;J!I)xFvGozHXnl=YdjvRpD0z)WIL1{OysdsQtdO!`q%JRt5V}
zetkq5?Yyr%<ZWLzm;$yrbFgVn3zNt%4z|zfyhk4BszN8@x`sD<yd6F!q1Ill_E-Ou
zxu%{|$JM1l8&X$<nvkjri1w7aWsT0q`SyDIxja~$M_wFlhKR!oXuVX>iqhuTku%*O
zax!xRYjS;pw)d5nPP}XtTRy@vsGbqjQ!|rRmm6fOOHkqTB^x*GB1h}dA>2g5Rl<kc
z0+B%X0ffTtoEjb-aS4)f#})2*T-k=B7jSd{H&YyY`RI}3);>YreX@JN+GodmIu-EI
zCh{);oa#HsKXV4B#Ec><u&eUVvO!Bpil+g$#N392Tv`$@<MUIJ&QrWWTRCq?w=DtL
zz>L=cJ!CBHDTQCzl$tm5CM*wudzL~9^U*RlRy|1Ii}^CbVNGc)oA@$-*)$9Mjqr9e
zUjSIU0BhL>V^IL_PtwR!&KL3Jq_>JGDX;L9!)Pi1Z$2)|z=PK%D}aWOo<AAEX5PXZ
zo(V2Z3j$ZkS8UjmF*RZWu?3{;<}6uFbQ)aCZ&@p~MXiOvZRKgPc2yf;rI_lx8jqVm
zS7t$LQZ=3`&|wMgC!qDIHhea8UaH1Z%}c)rbWH|@GWEsen(+C&VVHTktX`C*Xy~bR
zV{SnLtYSHDOzA0IRDgc%Ut#an@r5oGU&k8>P0GhhD5&9no-qn6<FW$3^$FUS^L2RN
zjsuOcWxA-mmDDvo^&8--&ZZWOa}}3rQJosIXWIstYMzQoo`Grm2AHaziiys^)R5g0
z_8Hd5$ZqoN;2T&ivCT|bB!q0nDq<#{6;j-3?CFqC(bYUVp?3|o=l&1J(8%xPw-b)G
z4WAItF1~S1zA0lRGUY>(8hky!i?2=ZfZB}Kx%Z`-FXR}OnWAAGQYSr&Pe2V|U$e{B
z?%3vxUUH48nQzJ*6PyNPlJ|gW<=M(t@y0dW2A5Xx)#*}^i{R2~z9vU$O@MwkCZ!0U
z$I|2GU&*I;|CM~Yg=fHO+P#+Vrm3mpTh?;URE=j(HViMr{2;qMFUO_$RCxAgP`W7V
z0N^#+!`J58|NNd@UYfD8Co!Z>5x;j)m)b=%b%px>K~a#|q76;#V!Ug=CymRWq!6ZY
zHg)Rtq7}wr-t!0+E2(DEf{b-vnRam4ycg7ti=%e8b;9OygL;S$3TMIPd8B+4yf4$v
ziBbC%4zDa%h$Ac$9$}GGPZNOpd}6k7Aay7~YG+3;3X;juDXtXfWyC__ut6iph$+Y6
z6(&X;hczZa!aCi8%;k1+VCCU~!I&l-li(k+x~~Xoo7*`#YPZ^0w!T%6*@%HBJ12hZ
z_`_9Te4BBU)^52@j9Ha5`)re|$?<gZTt*U%ykuMZYFqo1pi7oIF4`un<7=~1x%6eO
z2alr{M>ROA#p57m<v6J4)^ih1`?w1%#MShapd8_xGt=1E)eMhvF1J;*LbYPC3wyaH
z1qDEoF(}8A)~F!IrX;pD$#*LG9S4&clf@;-36)%eX4N!y3F@?M3`)PvZWrirfwl=6
zGBPV^DX7H^ZYd~5>(zQrkd4C-FAEAxiV5c>L5UORM@P;JupGDm`XgC|&FVToI_wq{
zWMDwiWCDgrRt$z_2Tz}C+|>%?S<l4Xpj@<ob)v)2nzVc01bhwfbJc>_0K0eB)9l{0
zR`5fE>6&HE5;O#l#trq}7awHhmldYKg|8Gv2~&YjnJ`=Ynq^Z_@F+6X;cR)R44HTM
zG!IPXz-*`wSsEi{ank|s(S+6#+!Ja;rHx3t%iF!I&<6}ZeB*(!;9BimZLl(UDsHUy
zDH4FHb?%^FxokAy9CWd)GX{o`uJTtMH;ybE3EKc))d8eCfDPgGYYIPLuB+x%p~}!u
zyr>!Jn!P<3(aHDQgYIDOoHcX>74Aa1U6H-fs^8Ml+B*mDzKV7aAl-n7cliCmkTiH|
z&KWi!^S1CPDr`l%)@aS$g5O@aYx%VC-VwC_1k#-Vw8pZK`6D{q5>_l!MA}j1p6DjD
zxd$10@72TxPkeRibZqeSmyNNZQS{;{GLCxt5{8oC#b4UO1)-7ozl&6&iro<pD(^yu
z?tAik?ypXqym#r#yx5r$ba(_AM!YXR1WUTkUl%wUYKWN{KjuD}y)%1X-Qn$g2s3I5
zj0E{5U4xJQH;o}+3pOBgO}I90ZhDY!yr!5_1m&TV;jUj-hI<#RkxO?CciuqN9rw1z
ztmF6dCw%P>O3JR+&ew*vM|wVMin7txJ1^ZGiM>4d#W-pijJ-N^zvMMv--F`P>y~*-
zs3cPJnIYO0wcKgE+k4OUMIUN@DR%12{o=E}7av-RuU(qE6ucPj`E^r-jkMl;DLQhG
z{&XBQ9ElCSa^G^ycQ{d4nx_8+R9F{oM+G~4-3d!YsA}%-mdx9L)QioxTW_|;&AXS(
zdy#psINP|n!`GWAt_%&%ZwgnTqMb{YW@KspxcQUTJFRic^GlWk$a3H}+~>2O&c-b-
z;-1Qav#78>d=?cv2R*>PEJ5b&;Wtp>eqYZ+*mX5?HL%6IL%ZX~T3_b_bJ4Ytxsl*-
z=*p+&JMDJ|QEe|O@4Yu1JMrpQXNO`ZhQ4&hUbmqETZ|o#O*s+kL<7#)rP&pV>StbM
zzNIM38OGO(_cO+93DtzR#*I6Doy$snpdnO@jN6cMn@^sAY#Vq;OjThOGBzP)6D~6a
zwP6|+)rVh0mi<V%-=|3^jR8J%0a@z8{m8rzDfj(Yy;4u<cdRr}N^k`IkWUybu-L|$
zMdR(_o5hi)$V9xp6B#?<*sNb;Fb9i6r#>2tNW-U4^&V8b2O0K6Rj`^}U%hhdUN7o8
zj-ES?498(q#^U!YgU5rl$hajm2pxr6BQ2j9BCTlq^HCexeh?WB`Q+Gnr1UET=Ah}i
zdEOk7-_R^*mNxH2oA<_xTcg8&RCX_~Kb-Yzo_V0LQ$sQ9>*&<$F*}P+vB<!Fm!a$Y
zy1;PI9+v-6*+_g*_O$Z?xF;6%#I3_X{I>LM+1q-2K{W=&*}<a#7laaiDwgr6S;>#}
zKB-UU(+^8n>03&V#;<23#Ldy-#u!P+<(~2D{ZhYdSdwwo1qN7lfHCB7ZGfqq#O={e
zRc+7@?uFqM8)M?-EJKVyId=Ydbndjfo!5|y5xB4e1)Jd|c;vhsFoH3V9awo<dCgs)
zc3|=J2JpG-SK+l|X*a>@C~hT_tb(|(47~Q~y-dMXOU@R5n|{(**6l};rWccQ9IN!q
zU7zlOSMn+zF7Ew$Ubm>al{5iqitI>ikb!x0jDp!>&wo~6v6~_3PJ~NP%>cI#T5$Vu
zgtcjVvW|e^eToYo<MZ(|$wqEaKh47hE#5&X2Tz9igthdn;Afycxr$4*_e+K)Fe=Hw
zssakGT)B8z$_)TKxRRy)-N)NA6k@EGy0GTH+3WR+x|6bP!Zvx1wH=t<p46hU?^RvR
zJKKof={f)jvGIEt(JqMo+e>|5zFs<C3Recw@DEU3TfF#%2gMcHMTz3gU(1-{Erie9
zWVjarR*<vUzHpFhBJK#3h%RvX>XcS}(5pIiJq^~v=w!W0L?Q#5!4B#t+#tKJ5EFy*
zVN_TP6y&1n&iQdh;+mPP&*NM;osX}K&%veg<TU4Sx!`6-E-J{}%NV#4M_X{ziCZh|
zR?%8o>l_!PBXFZ6&~{PRC)CBq4=b&&zm8)Z4vB;=UYESwPXOi}__<z&E%g^KmC)y1
z9r2HNdlM!zD34-P2q}G@xA)IdM!Ut^wW7qL5NnZI!__{2A4px$5Q2G&Gq*iAJ$DCx
zfBK8l_q79l`eCx(5Nro^Xe46$<ouoU_q7Lo^s-JLF#1mhF8I%Sdmc&+fhr`m1nF4m
z_V8e$s5~S~6cq=Xf;RYESI#R#hF@qxgEvkuoDSPQJew%0TPkWqMU4>}bj(;w*HTL#
zYU#Vz9&Z^))YjdYS(y3oQl#>ie2^A_KhQ)CpBH^vbhq*!OE+#%RDNAIuM64YMRnnt
z+dFRVh|=+G`xDhossEb9=GsI>^`A?1vf7n0%1{(+dQa<Xib;2dDsNOTREOI`)gLxM
zmh3ozzAUI$O(}ck5yM9pi;l;`5U(rZ-~fq`%J2k^zxsUzvZ;t@=a?2ux=@HRs-
zmMLPB4OyCH7A0vc@a|#^Jbl?AtCbAyGNjlW2mUD#N**~c)lj?~r&$^HFXXz<#s1uM
zKMMT5gZT5l15_?{oSI)Q(c@10_Hw<uO0idul2_)Y?rIBnnnjQ0@Ua5rvBx4StP#Aq
z>Xj+{tP0;LWQ;bK4=d-3A`lWO|G0`*5`UWNM-t51H=sw39#W(6z<UpPbw;t@9}|8%
zq5<DA?A=+|dma_9%0+3OVdX@jVOS;piu6eD6%{WZ!`_>$knx&D&MP)(p#V_~t%%st
z4m|oF2*>Lgku@vE9gb;W>LX$YI}arj%Lhf_&=2KA=!#<EZJfnaug?Rg(RmxVi=-Dv
z9hU?dc@Q8-ZQy#svF)-TvxCf<2Dg)QW{MR(PCv%rKn#j7dqIl5D}oFp!tQ1wI|PO6
z!i>W)>!{aqKgG>{1`*uUb0gr>z@5o2TZgCd!>7wu+!6lZo<zrql(<ar3#k^akpPnC
zNsfyS@bZwPlVx4l+fT$pGD><f);wwA7NOBUz|V!X1CR^(25i;BjkHpARqmJjxWN9n
zvfSIA(CP7&_dBnG{jN0<anKQ#`ugJ99p3I7C15(A@V^#h5lE75@Fe(pAU_a1hP0cP
zG_^=m8>Yj}am`L|*RsAKFyo&J$&ju(EJ3>MOWJ0nZ3c_$TwJ?vNplEk4#hPcOPX$^
z>HeML_hVm-#WjNfr^&mz&%ZD5$~!N3yB_F_SI_#-1`WhYqJL2wYQNF5&=YR@@JPh4
zFz}n|&$oZN{hsX)=f6CEUv~=TkY6x&EN~%kY)*AeJE#5N#PzfDXXE+xF!4N7pgqt9
zbzT11s~*26S(jJuJ)F>)gLNU>{0^k6!+s1C>9aW0G+!3F0{!rj3#j(FIDQO}0GWs%
zLTrg^Hvs`)tZn|bAQRV=db<+fN!SytifPJY(sCj^$SQI-U>&$HME2xyhotz@j0lf+
zfqkqeJjin$sRvj#Jj%mYC-SG;Cvfd3|Ep{uCe4blZ3ChpJET~(hjORw6keKQJ6+Uk
z%P=}+Mx899E=Je~g>`E2=@&c)gMFEk&7}qGSXuzAjwOW?*jy$yDY@YKzBu8@n@DAz
zJXV88aB8s6l)N_iTn$7f*leqLydFAuD7R4?upl;=DOM!1LTaX9Yl3|&UM&qX_;m%Z
z|Jz^_g}sRL-LIt7yZ;H-O$x9K<O3PJlJHNwZwV6x)p;JL2_Jk1Qptx@O?yT5Cjl<S
z4dND9n;|+i=*^gyt)2qH6N#QI$Og{aCWgfaB}(xXCVuHOD$rws1p9=g#3QUqdAKig
zmocg<5V=z7at13DIiW^GM4onXpFq>!;pWead@!%@D(~mtJnU`v&Lot&0PR=7Q=Ytn
zt8e(<z#8kXW^Q;EJkgV%zxL^C_w)L^hnImHobjJ|X9ykwVZY(upZ3uY4CcVh&&z!6
z2~#onU<ZR$b8Vq2WU5&Lca?G5;-1?t+<YN!+~?~A*BvO&7lK`LL*NW5tN|}v!OkU9
zGcq-Qyyue_?z|8;wfnlTw%k5117BOwcHfbNr6hP9RPt9t4QNv%b_MT=8lp#{WoUN~
zGWUQ-uc$2O4z-7_gpQ($CREfEIT3A&jz-(ip2Ns;7~FW3bvH^DN*23s_uuS~SMK*6
z4h#lq+(qCt(v~NxcicF;aQ5TEPd44z6t6zGS{<V2Re_<ev|GN;qm1P%5=w7gF;dzB
z?@OYWCsU2ZQjqX3aN+^~0w0d#>6R#*Sb7+)W!=zT47ofxpw1?H@klqoNAvKI^gG~_
zWjwKw@e+7MndCJ?u)jTWkHVw$s4^Z+0x!j<kC)s^s^;LKlJV+M+N0q$;yKv|6M;Lc
z8P*2+2r(XCgc7*eB645jcEELv-R5#wo9boc(2z?kc8bHYnFwiO!hyC>i3>V$v;{{P
zUbHu9xH^GT1ve;)bIA)9?Kvyf6yRzNDg@dp=tSe)>YQ;;&%nhA7^X85Zr3`hLV-9e
zC&xM9>W=6Yu4e9^pvMRBbK%nkub&MC;6hjGu4?=myn6yYp}pdcxvxCvZGTEl&F)D1
z-EH@4`jK?2x7*hW4*1G%wN&9wxP&N-D(;run~fKo@%FE1DU~_kS&>Qe<lf$ud`fHb
z4v>8Yw8U)Z(F#OBOH5?AT*U5^M-&JJ?w@giNn}EAL0ZTY=f86T-g?f!`!zwCN{KH*
zC1ay*^7vCw!HYGQ+i`iCBaa*frESLTbk9tIX4XmGvJvZ_EQ%mM?wE1`m2N{9;#y&D
zLI@>jL=sy^oD=L#N)+~3E(*%FNhdoq;W)tk0kXh!D3=7b*@}dw=|550f2VZ+L6xn@
zDMtBr$(tqLFcP}pv4mo@D>wxt5zAMY656<2U3+6_VQ57LX@IDy!?|x1kV`_~^8FNJ
z@S5MQc(Y<zS?H5r1=noI743`-9*a4Kk$EKMo&hp;FrC=huIgeE-?0@J-5q=Rl^E+l
z=HZyj4Y=Bw4uY$54X%!7XvIaF?{V1SY<9#r7oa-Cv=dYv%!)>?lYgV9R7Kw!R1C9H
zkS4?+P48OKQ<Yn9Xcx3Ac_f>k${I-4n97<+wjh-)Bv~_6R(`#0zHP-qvPD$srt1y!
z4c`>wETQD%LfoYp=f646Y^EE(?x9U|Mc~A>p}C<I3X);hWBmELA&)Ky%C2kYwJQ`P
t!zXSJ-Gmm9yj%GDvM<U=GIsU{k8#oCT_v>X>ozKHYg}LTriN^i{{>pThTZ@G

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_291697.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_291697.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cccee613bcabb0a6f47c0f0ff37a44cc60d6f936
GIT binary patch
literal 12042
zcmcgyYfKwimag)%{KD7<^9TVG2w)%(2!V7$lO`ca6B4=!c@kQd<1%0#Hk3_BJmqa?
zrhD7&ZV5Bfqd2{@iqmQ-PIsiHM<b1UHQLFJ_D6R1$GXPsVAW<Nq{*NBS~AIx-Tk%a
z-f|g-m?oVWZAq@Wk8{pF_uR+%?z#R~olZ@_^Y05^P1Nruh(Do>_?R+@XJ#2e+$3m%
zCZ~xJ;Y*H?I4_xzj>t$tLO97uEJ<V*zPMcbVj0TO5?V^jXgRH*mA{bF6iwY%eJ$OF
zM@_3=gGcg%c_gpZj_fts`Ac=v(DGNXn*^*a$=X``N<64HYFd{WAI&R`kI19JWBLNm
zxO$wR3%(%l>%W!=qYU$<KuG1j=|ZP$vM{$qNYjQb%8gr;o3<z~%3nUFri(w2eVu7o
z{En#TYTE21CX4cDRN~aorA}@B+8<InCM^T;V+y+L1Nn#!S_H{s61p661u6paJ3v}x
z9t|p>+>)n!=N9ypTa*hu$=k-5maYOl4D>GA@&P$wg!OF9TE}#qwAMU93JgAZ3*Ju%
z5?&URqR<O+gjLRKkDPkv=zwjwf8?0$^b5Jc7jgr<_QaWY&b=#ADu>@a)qmDD@C0@r
z!Ybj_?)e#;*JmGhdU+K}FW8w`?~@>E3QejfX#aSECXZFhlc#xdkS7O#PwDWu$6VuH
zUOMHx&LGVg6?&oViqW7K+Mpbz@Dd+Hgrq%dRHB{FhkAma$;|8(^XN;H_a$FvC<3M1
z&`NV?%W`N@A2&U$oHdE7B~ZQ%t%5De((Yi*><+)2AOaO^DO=$OodY}Bovay`Rr;V$
z!o!xcm3}Y-YtHgkv6aA6<yR1dABX}LECF&*hU8SU7S@F1<miK}wdtYB4c)PvU2HX5
z^h$i$eqg>DwwNu!de^dLY%xylW_NGfda>9eETxVm*j?bShz}(+F(yIljirz*whon|
z@=U1;l_DO@SI?3H#ReZOLv~=*n7d{Zx8?=zh8!*P_(s;m7L7@KS<6l4@ss!EVm|^_
zpI#)T$sEb~W{#4r75T((9}ywn3&RLDvUO}DTPtcBXkwc-^+Gv?M!K2Z+&cv>-;>jJ
zo}HSlXPaNLwH$H!VU5s=`%2Nz2U@m~)Buw9U@kI;tMw&)jd*76-A0;}-OCn;y?&{0
z`fQEZX0E1f+sKxI?82;sO?J!77(=#RY$3N-?QHv`h_}RHhHuX7$m4^uyH5LNn?Ree
zW@$Xf1N%1j_J!IGww2xIhaHhtAzKIbv+Zn0PQH`fzl~;j=B=n1+xhyucxP%uRtt2o
z)|?SA=NKrHWLwxSai;rqz+r`XSj!5l8RhHQ2DUbL?P98i2>I!!GU7G&v;(iXr@g^S
z*aO0@liiK9+1c^Nrq!quYXS#f;==2S-OPd4DIUv1YzZx$Y5*6P>uYj7ooK&<td%`<
zUoEaplDM9`!<Xl=cpeU`W{`n}PFP7^X20h0GRV^~FcDFSoc3Lxb&iXYz%k2a?A|F}
z?(t1H83qQ4c!G8~E6G%#PXRCSP4ntm#xu^?XKXH-mpN$HRbD#da`Os1V|R}`dAZ-o
zc)YxFY}#Y@?Q7@dLa_|8H1K<Pxyy~prL@P#%e_7i<K)$LpJ&G9u-R$a+Re-Dwpky;
z%dZF@2mYwN4*Rszi_<FH1WGb!2{Og#g{B~{^7<GT?X=lvHj-1><dvMHJ6r15pmn%;
zbw<J!u){{$&1=MR|Ljz51~|qU&-|>->jJH|f-<~p)<y5-<?yzF5(p}xB(y9h-F%^#
zbh&L<Bu@#F!Oog77vuG1c(fZ0f&?rx^MO(DjE#ArRQN)E3h<e8mX}T0rainC*G}24
zOnV$tFk;ArUS5F>4PeafaPTAyzhj;OEfr`kWWR2nwDZ)g-7)2)ZC7~NxQo8VD}+Je
zwV46IwJ@j?t}!1^`N1eSg+?5B6zJoh<;g3&5-S3h&m=%mJj|dBZq?!KhT*jQ1<(J!
z+q&Rkro5oBvvmR#v->7I?mYli-M&^Y<7o9cXJ%U=*9uy7*k<g$nfd9K+3PkavcV+s
zdE7RK2c}Z{8*QC$bU_WT6Nqe6PR8w=X0CvS2(@~j0xk^_&)+2pZNcK3;Wwl96^$j>
z_Xu*Q!>6NjE86PdvB!nRo603+l#F(#3LAp`k2dAgB{eY@SJIl46{Yp2WJx`zuMfVR
zHkL<6Iioc=@W^D2T#p^%N?Mk+Dbt(5Q)z8Uv?JEc?P%e&t-)hyogrCN%js(46`Xc|
z@YuS7C@@7vIbHRaNAC9D>5to&D^j&RoUSK$JgqZsQM0Bii=N<gH9(^&jC6CFs$gH*
zRPu{mx2?CVvECS)D(~P-9l=wA__5E2VzTIkB~M(%ncJ36Jt+F!+=CLXqyJ$)*Kv+B
zpW}4rh342VdSkxW39h7hndC~^mM?MUo(JZKvftYuD*ve}IXuesj&f#D_r2ip$7=0j
zL%1PwD%PAdwf>6vwf|fHiuy?K=wr~k?XxR4$Ct*V_Lw<kZdlb>Lu9(JB03lAyyfQ#
zts!~ZV2=1cABrq2RmQ40LrqALHk3qVpWCC#rK(sPXQ&M+9>dU_2%m@?kD240zpP$9
zyIg<oaAJsS>fx#nKk%+-2SVgyQ}NBNrLJgaT(NAvr%%kSn0iAL^t-S)a`yAK$c6CV
z#L78+Q%LsMV7ghdR1z&um+g$Hxw6KmQnI{ht*k00`@$Ym-l~cp<jVFxl}pMy*Se29
zIRD){$>H<Q<r3pXGNgD;5vAof7nT;H*V9!su_>;q4cIO1YnHm0@2jEM!X5o`8)xZA
zXt=7QAj8r}f)2Zz;^*(YlW2Rcl$Q2{wCf<G_U8Lb?|;eMy>{nXs$_3SySB*=u{o}=
z0nAfW9_{$T5baueCuZl0>f>#ksX0Wg8OoyPIK!@(LolMTGS<Ku8{-bn&;}MPFfC4m
zCq83t`j`Bvf?cumcQ4(!bf5Xgf6t%VeUK|Sm>A=9eJ~W1=2K?zYWQlz9yNTza@3BH
zbd4&A)J5OmjI|sEwogO0Gdi?%C}!o1O&rzqv10u&QP8-4ge3Guk!h}A*OzCI`1ss%
zb87ctuHbO+1Sqgo4a|uP!ZhTHcf&j^ZsT-q%O?_jzpGB1;5zyqT<1F8<#g}DJS-^w
zsXba08RrTrV+Lp^wh;IIawxvQ)psSTx%xw#t~+>qO<54B{xSQAQZG_rDq@bBVx51a
z8XrSm7uH3_qK>%Yk5ub3Sos96TyVO^CwyK8ZCAX4ar)*Nw*xs`@j?C;pIb}eeUo5`
z$?VBhBq0d#{7#by8F(cpi64_dnJXtlJPKt2Nk9sCg~WJLlEZ<@P`wOz0i$hxSQ(t1
zq#~XO$XWSh_T0HaOH1#|M68HgQv{T(l2st=N6Y<iIuB4jwC~|3UxbmRXslHZRUSM_
zD_AODya~<~nSQfWR#%EuXwdl(wXT9wI5lYyHQ4ylQc-V2$EvoW0Y*UM@Xm*a#SxiA
z*kaQIkvo;B<7COEO33=Mr|-!;xK7kDpk~#1M@a%>l(7J!f!5SC`5}%-1vHSC=H#`k
zMmQs|TH#A;{4me_Fs=a|SYXG?+GTsT^Ly&5UargSb)bMPptYiA!Z|&l$7LDqGG&FV
zKBHgZOZpjD9ZRu>G3hX2)y<c}vQQ&`KQwQ5`v6N>GE2+i^H}-^&vrCh5cqJp$1MkN
z-g4DGJ@52dW}S=$BT5V7S!lr`&fsO}wKU8LGMX&{PHDDaoMN>s0K9c#Qj2AeB|~-4
za(Q5(*)sT^Anw0@^Xb5X<xPvj>6*3y%54~Ewj8i#nFNUkEtbm&wqZo(#mpG@X321a
zK=l%tpt60;2kMI*Yd9b%xX~w}JqAs74C66;2jniLT{9Wn-ttx^v3~d-$t!5*RhL7=
z^lOJ16r~)*P`<@l$RJXL&+M~KUUt>xT;P><0Pi#QYrGtgxMPBsW83fwpVRI2FpLW^
zsOH_?xp}A459l7c=K*Z)n6}T%GO$?@j1|iS4D6<PDRc`C1=FrstC68mE!r3{HpeJk
zh!_gi;;Ds<-Jnq$Izpfi(gfR<mm%Bn<Qy-b1MIrME9Ptyu-Wno0fYj+gnAolP)H#f
zd@{gf%mrxJYlIh?R4+b^9g2C~TxO;r86C_|pbYH>-mhRL28s1TLTg$)6h8FHo6+7s
zXm%!LJCmB7X^jyfyc>PN-r!tXqYe4PJ<*{*XeyJk%A}@p&0vg7E>#6jruF7UHq1s(
z#?{NcDSam(In$0+Qw?XTiIYiFP0G}G<5ciiXg`8t=fdwrX->N<c<hnZus9GNh{|Jz
zTk0>5-92^Z)UqjY?zf}gjjq(5e0VISJ%f;*F?1Z51_7F>f%~Ry$rc+*71wj>`grX(
zE%#ayhE(GrPJJlh;MBdVs<%1S+bPw_RceT%hLUH7ljkm^sEe!AWsbVMGHPEP9p^^J
zQ`AJTca2glD#D7;T%`IFZLl}3)rIUKI${XX;S;Fgg3w&Z7pV^U!WY0%f=_mYr=nNm
z(pxN`x=L`o?ZM*+Ar&q9!~Rd$RecqwuS)5wSM_zAzAiQw-<8tu0b3N7Mom$Bl#Usq
zbhL~stjSx}pDwD1dY1;{s^y~qz<Rm*H#t*J@YI^d5ZNDXPHO6svO2~AW9G<>xFOF6
zdm!<w5K6Jfh0Nv$do~&PKp9Qqc!q*iuu|+jk+&l!H#0z<#!<=~e@oC(bf%v~t!;XI
zS&b&qVSCf_HE^LPK(PcwK){>+#gbIMtjC|s`X8Yc^oHKa$0UFY@<lzVE#jP+et{RF
z;MNK51wWLcZ#FWEe3JtCCbY;|)fO~}SEQk~wku6d^}$x5g|-mKrncNj2MJ9<)b~XV
zlsVE>uOMCZgQTNAWpvN6Z=PE+uy0=5Li{G<%LTn@MaDB~z;g>|4f$}4<-lVT;Ky_N
zN6T0t*7VnyA>gy~AtE$0L><A0lX+>BGzC<d`H&AU!J3igP~<^PFSJ9llK+=>BrNm@
zt#4L>_I5xT8vkAFoco-6#Qop0U>Wl;7VzUv#^pe`!bRJCE{|J46APPwfruuc_(j*B
zffp~83wQ#zDjX2J77P+Bv{O`p&Y&HDAP7VVv}ofHygqW`*oWVfV2{ioTsJ7d0)To1
zgZvyb0WYhDL5o1}%rhvp8(zE|f*ro=8@x;ns+vMo3g@+1JGgEo<HWeYTF8?N%z0E_
zi(dF-BN<rOh_W$P5uapXFZ|j7ia6)M??W_5E`*izD7NGDfmapdOydxHaWcFHC?Tf8
zFiwZhi|#32^vV{C;FmS?Zsg$wulzG0`+N9#4X}*BD{BcIKDysH7CeHEo9fU|SOK0Y
z>v%QAQS<GJTNN?;t*Sq08j`Yxq^1FU68LIIxPGxBT=ALn=FHMeN>v*?0v<d<hC3s}
z;g(fZ1*fX`#kt$>-Fh#jY6>2Cq}DGsg_|OC(dx)pZ0PRAI~SMF{QBaz7gy9h!K3Ly
z<I=v!P-NfdWTbOR9XuK$L$Xj?NOq(D`>HIv?oxNCxZ#c_ZvR3bF-CeLeUZ6H-{;kl
z6F=Rtd?rCAsuR+G7)mI<9eF|K>oPuvo)<1QhnpjFF~i-`JEbe?#;@Aqbi9jG?}Kh=
z^^vyl+u+;HWzpWH@!&gYePN^+I#n9}5d>8Zb5-q}e&4bej`*uO6g~RQ{BHx_1yZ`x
zaGo}n-fUWGf>4YhWvmGffRzi17B7b{N6TYFaWbWAT-D*jcw=JnVRcG(YE^fZ)16J8
zJD<FGDWx01k)g$r@JLh*p{2Q$&bq4G%jxzmmnTLZ8dAD}RoyVB8%~}*m%MN>rMm=L
zYRpkH1f^oTIZb_1R*#)OPhR7d84SNMZyi~82(t&phSBEr>?+Knk5nJ2w>yYuj^O0?
z9oDxyrhlvgctLJ?h*x~9Mq8rb1U5iLj+@B?9Kx!w8oTj)E<V2ll8D=OKp9enfSZ<n
zK*13nMfdT;Quy+ffZ%`<!U|H<1{|@8$?WB(NC_|{8yeW6UM@l#==t~a=da)3S8l_f
zzkY*XvJHR!`VD^RHvIYPH~3{=XD$y(f>na!Q4Hd17v@8-rXz#@uwl_KBhqK+X7T5e
z?f%;khR6_2q9GH#cFsLq25UfN_6Y;(6OgM&kNqJaPW&Gi38*F;%(=Kgp&GaeQV20{
zrW$3XyzKO`v%MR)Enc*mEWx0#V^iI58oWZ=d;CqA5c!5@!`ryc+uqU*cMkSxZx18{
z;@^V^Zx_7&J4igD3KlhC4Qz+L=pa|pl%ksNU;XAs_kNUUOVAH`xSlhq)?tnsPE*>@
zrLg{~Tw12Ui$CX7Oz}FG7yJuE560&`^IpLbVjuXo&`OT;y8>CbyTDgP;4nW!wLeF%
z7rmZvZ2cG$d**$!^Ki5shwG&rGeDea!;8K3mSB#uEsen32Ks-5pVt60;D5lMsR^xa
z@o@O?il!ndt4L}p;DouVv2Ys8ie^_*wkxUG1x{+QE8KNMICH|G6fPAq?oXqO7$Wv1
z^T*vuSxKlH;^TPxt&R>w&2jP@>K>IKf2;gXxuSb3c>K9Us#OI0o~sGDF;dIPO45`n
z)D=070<v<HZVTDrgQK2?Pc)ICn-`ZZM(sbloTl`P1>u6oT#71-cHQo|)f2By?Pvx*
z91*prsM2WN?LD{lz@A^;xMi_!Q5)7qhCb0piv<V$cU5W1_}rwHE7r|~))+i3oaNBe
z5+4L^@W%Zd67YXVG9dl_*$xPrge@-jKOEVUm?)GW?r%gvW!uODr22#8$#ee8BWF=8
zHM1s1L5~2$QUg>#wGkPGn5+V}T?%4;8HW{6({fhrA|ckN5w;Bkl_01xPuub40k^Rj
zlWBZTxDs^Oy-r)3RnDM^jxSqjcjof7trG_|@T9Y9g;|R{p@8I&3}zU;M$u~oUcB;(
zO^Cf{uh?*OW!8h@E2NFrWv;|B>i~hp`Dvfmi*}1#7$>ZNB0)6)>WMo5^A*tk34Y$|
z@Cp)ZhN9rf$CM5){Glibw=tc+D*pA(Z+EUxhl9P}Q&YEZx%WZiO5JHrRs%tlF1RVG
zey$~oTi}wbIH7z{@z9?t8VQ~Tw5T#i0_$>_UJ*QjBRauBJjuX@!oSiOWc4QmWEd0}
zwH9GJGEqqLdZEuP({Qgn4;P0#C8ih@ALS|gywBsCcRP8-QT%^4UOMUW@haGY;Li2h
zEQ7BIdBs^Fl!mr<h_cPkPCJEhLD-hp97p%$0tv6`cW07#(6GgLjbLlrxM!NaM+m!~
z9k<^-<DuuLojptfvdE=){~0FRx|AfzKM~shAawspRKN}+F$B#YRo$psql!Zcv}9vU
zVqd!6nrM4yfV-xWQ)K$$rKEH0xs+5*kQ-Fq#L-uxI`RrsuiE0P$!h<rwa6r1O%_l!
zCXPHrcXK6!WP0Rsa(n{WYcj`PSk@L)>-EJt#h;rARq6BAQi)`}osdu;mER~|mkg2Q
z-gP5UU2|7^N4svq*&;DpjI(AjTY|HtVzvxt%ZZB0+ugUi|GWcbpGgUc_SrtvMhD72
zbxSN{eRMyfSSKL4Jd8gN_CGBCw~BwMNM0CSz2M+3IFioERp%V%oJ;o4aYvbFi1z7m
zvXX3wJDw5nSwBe<Z5>Zl6{Im%yjtDPRkyDbkV)4!-+lki`|DCjuhliJ)^%}pUF&kl
z!GQqsyF0nvo$E@Jr--JObtC{%Z}hAl=;sdfKSTLvC&_Zs^t7AM*Q5$+Z)or=|37@+
Bj#&Tz

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_298484.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_298484.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bdc89a8a5d4af30c5824b6e5941c08771b014c55
GIT binary patch
literal 15028
zcmcIrX>1!umhL8-XY(c{>as2Bv<_RAWm~r6*pV$uzGL}HEIZ-SY>K9CH7UtfniG1E
zLC7Q+QJL9s+sSO`Y!;y>#*8w%z$$|Q;>n*4uz%R0U=h8VT>)!g;U5dg>tL^6`>L9k
zWJ=0`ZGhc%y*ggKs`u)9#edZ6wFEpTZ~f-_f7TPkzoJOyF{T60exe|V+XO=}<RH;2
zeaT)D$7MtEUWz1Sgoo_MHD!pUFC$~*48<rI<%blbViXV5pUI`1H7O{d(4;A}jP^TF
z$e@+)OF?~43hD>6q50lz{Fq+R-;uji;rZ}tdX;!i3@c|4#XL$c!RS6F8T|u8X8vHl
zP0yFq5E_E1V~ifE-|~DeV_GBKyhgfZjdW|_^gb<PdrR?Iy5Y>XSIg8hMINHRxImAJ
zA-$wPx_yoEC2N!~_2`+h!Zdw4ru;2MuVGDz*MMwQd?;h+?<DO=62E(C4b1j;FO6j5
zxzb*$*SMx+7@1AXX0L2x$zax+<27WWk7BmGMP=qN^X)Y;Tk%|06_~S1JO>t-g#x+X
zC$&#r3f1>183)Xpm8mLB%ODvk&=OO<M!M9$f;1qxHE&V9Hl~58eT(cZ0)7`|$6S1q
zY-oIf27Km82;NT!5?(K%kQ!bMl&Cv=>g6LRo#&7D9(A5x5j(RYc2d-JpL_Y@*>uS#
zXfJM%iQ3`uA*Vm!@_PKD28AbG?5O`qC2D~}FBvK)7s=Bic}65pc0pL>9vSZQdHte%
zz;jbHjQc%K_c-HndRf=#byfugEb1JqftRQ{fA-Yz3(k`)QW5U_^@hrzUOfA)66u%#
zj7)m^QJbqChI}CVEL|d4vO!sSUfI&TvS>i79!|koKTEe4EZd;0lCx#YmUDKld<wK<
zu!1Y$DyE>0;3jSpXUA!q1Beay;mWwpQ!seWo~7NwZ3dbxQ!wr+C=;y2H9!o~P(2Q=
zlCz?E^7@0gwd!HWT;Fj$Rh)yfeJ8r?I51r`SIQNAC%U4{7%*K8M{reO3lKk(F+`sX
ztsG8`>fvfoDoRhMYEUYo!F078DV504F%%j(r^VFOtElM})OC4WDPVVSR?gNZ3uJlK
zugeCrfd`7rID++ojI9GUPF~H0WJSdlamA=F8S2cplZcY99fz6Q%59Z6DV5`D@OT@z
z2F`+Kwh=<A0W`-=d2JQYrd%!8w2}*q@_{O&frHIlgT&tq-@hCGg4;G|mE^Xe9!qWK
z%?_E@_I9puW!s#g;H()lvleXGpjA27Qn1zh5%1Wb4(hpHnKJEj)e?7B@{==X^D(FM
zMw{PmE2f6ExssZ}avt2twQ@VBV54I+Q?NU6J5Zg$Hkcg>t?re4O4ID(wsX63G{N26
zZi$X-L;FN<4_BWz)&jN^*Uat7NZynlDC$94(vrzZD-EUAM#=Y1Q3O{XZ2y7#$=)Bh
zpX}rIatbWv`?-Cb5{F*kWZd4B{NQxi8Q8ayyPQ6g6Fk7}Uq$u8%Cd;>!56t=Mn13=
zlurJBZ_6(DY=Aq!wR0~%&}LQ=N!-leWeeDeg(w>6Gb}7(qJb1C*A1Wl3DQg~OgM3$
z6ctS1=BVf2GELr>iPVtGKOibb0@pn(i?*95=yjiDx4@@CC&~hYqIQ%W0R=kb^f4mk
zW_%N(e8@K}DqXB=*y|A$QyzB2FRJ<mM_hrnouWcYrXb3Qa%LnTD*S;F)+1_NfsrAf
z+v#GMhJzy6A(Dqh@`$MPyIq4GKMO1(STlMd!D6lO5;gt+>tj4l*HA7vkPTkT3l3*f
z-MO;vVbPebL2AV5U7e6CfrsJr?hp-W5-9;H_Oc`6qkbR6S6UFP9d#6K^rCzen4^G~
zb4oH+P!KwT>=qOp7EPI;Zy3xGs8Cen58^7_=VSc=TyRL#Ny(@^r~%iR{s7NM`uhBk
zDt$BY0hkNtXn^&L%4^b>cDdc-L*s+MaaJT@f(M+VFh>e6w01*OqDglSh@?wYqY6C%
z=QUAv&FQ{AK0F}mFsqzW25=S4j&s5_C@QB$@mJ-)?&}M{kd(gR3Fp+Pm`;FZCY`?F
zfJjX``$k35Evj&LVM5Y@VNr#fMk!JNDskg3V}bJ@1YTDDsONvrwoHz&1O8E$+tYI0
z<sNVau8$0F11oYk(Bfy^EdkHaXbZ$zpr^Z>L#_a@Y5V9+CnPyR*a9QNPWK3i+|GS_
zckSH;Iig-F<Q(v@!=6Ewfj%M$_5T@6#1QdqBSGt@w?($`J@eWvp(Ber!}RIMX?|>8
z=Lj8rY_i-|&8T>iKaezS4IN)x6;Ii#V?M#&lAvrUqa{&XCm8EO$5NIu{;FVU2%TKC
z7DsQ!UJ&ftXLU*Ii=k5~ot<xsRS4zV1l{(~(UjhluvQED>bOqO?Ft=T(p#ce1-;{w
z!=E0%cRcQztw`1!6!Zr}U8x_Cv!pjf>+YKQPToG#5<4zfw#_PM1Apk5o&4PRutC^y
zQm~v9^rukehUlKV4*mjPKXWMN60G&{eS&4z?8F@NRmYt7^EbaP723}UmUDvse5mWO
z#ddq^%vSzXyg5<c{zvx9sV}DHEhk{K(8tzaUc2p`@$#-%#jHwjv?q)AF6j4#$&|?)
zJtdebW9@>eF@8xfwS^Tab1}b9Fx7+=OAs>8l!ldv{oRr7XjiN_PW{FeSKZq(C!g0H
z2$M^;(sU2cKo4!Ght}tMXgwEJFGBa~XX<$efBjB#{L=3`W&^X`_ni+r<}F=e)sns9
zZcmKjUzzzy+$h-F=jtBXz8ZUI|DxsVmxcXT1pAe+ZqZhJyL+aa?}}X&Dq821e;9jM
zGdKB#@oWFQ?R;4C*lfLRpRw~rv7(R1;x)0!dz)ul1V@KZ+VSwx*JFRWk~nwin^!L<
z&RrHddlRn>2%Q5$=|F<L@y*StWl$+(hYUVb@OcViNFGM96SC8?Z$U86$im8$wUqCe
z+0O?)?%^i|OMToSSen8rl>CZdt%=Ja8ow!+_lA{A))KyTX5U>`%*J~KOI_S7SQ??I
zxrFZ)%+)bJFdO)6D&jSQ$r0;9QEEwT{Uv*QVrBv+$@Ysk1$AARPN@yi=9pcuY{fG#
zsCT`iT;4_)_Al=sG`3L3lEE4s6bx0Locr|hz02{j+2&;JA;EAc)SX%<r-&yb1E@$Q
z0CHxR1X3_NKqAfC1pT&I)g1K)*PKe&@zTS6!j4mtNYa+~Tcb?0U7*W(Z;bg(N6ag1
z-Y(GFL!C=1L)7t8Zc(kBR!7uP5S^Iqk-F|N#Ptz<v=7F`JW@A3gH=w5<PA|ZHtF$s
zuLszjC_y<UX*_LiqZXB{Cos+qyOE;JJV;~XQ)C6a-=^Qz-6lAqKYdcn6hhz3ncA;9
z0hWFy_EVB03!OKwA{$-#j*e3@GHlbSpjM>vS3L~I3*MpE$ffX^NQEpDe;Kr^Sg+g%
z1f%3s9}vIJVjs{uMW`hJHl_6R=Z`#{7NH}$J{i=j&Xmf1A+^8>DbJQy43}_<LgSKZ
z#r;P7Qs?*;ro+%4qj^gmR0qJ$lpcoSR2)9TWh~R6CZc0x17)DRWehc}f|wRr`M^)a
zTW#*##i=ou2sjlgz)F;(wxKqnAK59Z9!8!)0oKT;vial&^o8?t^okAW3+LzPWgE~J
z&d<@yH=r+^pQEQfL)INUB*7`p6JWDW**YqR#{GfHYo1ELZ~{K>_{g{)+pXA~Wnr?2
zDSbz!-vil9CF2{aoGOt>JY(ao!Afa`R<a|L{z@=xm5gV?=k~A_h^~BOJTN*QsPtcV
zje4@}Y(3pvd8WagzaWu)hr0IcV|e|gY$NC=LUOQRk%(kOEAMzzU`a+`F)$d6$dpG5
zIJbyEaI)YGRGNN}vm#SI7wVG%;}mD|Oj2x(B0d53rj$$>wicpbuDfoCa<3-<2pM(y
z=!K4)ne9g#RAnf{x=}&(fkD^MHO6&tswr*rFo?M@9bk)Md&$3Z`+>m`FbVw!As`hV
z08;-^c>Q;XSX3LP=?ER|hz9sGg1srJZhkQFyEpE?G1ofBJUl2IJeO=aFR0His_Ag&
z^s&gX=;auh)K$eglIpsr3VA7Pq)^in#D)fqsQ3B78q0_S93;>LiVCo5-Pc70SaN}z
z><|>i)69;d5Hio;Oo7i04SKc@rFqc{?cMBk^zy+AOlT|<qU_`i>8wF{;iw^@j(B7D
zi&{z8oFHs@977vRo{9R>OA_x&*W?)cCQ!KG=SR}<KOrJT>!uGy4$adQ32Ikj^R6Vk
z>57!jiVVkFM?;6f+EHu6JrQN7Bc;|%t0Jl>8PP%n2-_p=(bmX*-u%v?1a+Ptig*03
z`+oOq$NdxW1Bv#R6K8wA_9rUNC#mz{Ln)O$^piz%@$K@Na?ojJ{t}cvcK_I1$Cuq-
zbkCbRBg!RX(KHv~Vq~n9pZLaDn^1Qq>N}J0Hr9SClk1eB&TrL(r6}41Hf--5W751e
zbRt!3=Ud<Jn=!{)V`KMr$9wKIhfXX~=4g#T*`deb_GlL}2$U$?8g`*UAVq6_myY(_
zes$(m-t~(sDYbFh5HUo@lIl{v{iB0-4#pkH@@AmJO4yZDm+*BTZM(BAPA1D5zi+bT
zTdP)~TrMVbme6S|Qw=f<`$_;XTIBeg>CWHDk<?+0T@3Gy7C&g}^wtqHufOb>96oH}
z%p69a@+b=6d4Qi9GfN(6rl6Ixa2Pe(kj}J%&c<0+VHDH=(s4zcZ6#KbMn#G-S_9(>
z+MlCTV(nP6I-QYYd{l+Dvgc~WSQH*XKKfC>Rsg)V6qV!bfTvR#3?x_v_%p_ho~s$-
zvAE{)Jf0M)nFKUks#%d&Gs4C(dJ8q<5v<}z76A%w+Ms?Jx2ZtSH#5rM7T}fqd9)3%
zbl??W>!@Yu@v4@kTnC`@l^BatVH~Lnka<U5yqc@xsxf+BforSD>t!K(OTK#Ea!A&5
zyv3*~9#aix&-uC$BGsUg@FlE}CH=e^n9FWLFN7Vj4)m&mSA&ABM&TOtsz<LT^x6im
zhFY+qC(*$l!9UU$&;=A%^^M{TyeUgi5Z<pdP|#Qo^cfq5Em{JI{BCbvIF~*(noFM=
z&4EOHxmx;$bNd1UO0Eq8kTHxt><QFg0M7}w2VQC1WEevgpifyqK41_C;}F#lz<LqD
z5O+EW0_h|e8ZM=R0O(VI(XROdezq6Y{3@zhHg+9;Q((1>A&A9a3yFC;X6>M)d(3%i
zI*n3%05$v!e*PpZW<V(_3B3{H5{{&<B6Ku^Qb@5Mh8kGk2Q44%jyU--L0^eL0Bf}K
zt|LE%Hb=W6hv2}aHN9_+c1G=y7QR=|)`yOO-g)1}+oImcn=yxAtd89j3_E7`%+-8F
z&eeZ@=;39d?TlbJ6Y5?xnx`itlhKKoO0d_*nK{S2@j&R<lEEB3As9C2j`_3u1;>km
z;l%<Z)$_)Kc_el5j(bh<!0&tFlK?QxH42VS!O#hG2Gg`R;)V0yq)=QJzc6Q>H@pz)
zUZQoO&Xf@yL8tDv@(kZD7^-88U}%Jssg%s``q-SGyri{6y@GaA%qnPVLWfgYbMzHK
zTM?5Bn(ENuC4(utGveh-0H_IdEmF$2kKH;JekD2~9m8kdjF$@boq~Sn?4`NRuN-sT
zpF1Dk6n38#^k)<2UQIaNk0=JKH1<W9VRycvnblx>VPDzkyxEU*-Kr;ZnhMG|S$_e|
zgioLHAjQc!67OAP_9Q0D(8Ade<sv-;r=~(CEu5xEF1O30w!l-d`ay<o&L1Wj+Ce3h
zrB|1PJ+x3+6`a+SXpdx+Q$Q0`b4nWd0Z~|!J0bQLxLv|&GTOc1S%+kl89lqACe!mh
z+n^np)F04tK$>ZjLG`C+C#dDL{ps^ke(iy*_prZ!Hz89KoMy8p;X-#!&`cox!Kknn
zr}Ape_lTz(h674jejlVTXo$3=1nB@$1o(mZP1{GE#A_b|$90@GV~ZgFE2oogH1s1^
z!>T7ENkM(CKCp@O{Ybg2dUAFcll4MEi(vBy4V<1ca0VC~(3BNCT;+|oYE{J$&5R&u
z<cuIgASXD4G`8kv7+-;Oc`gPx0?gVJtiqs)GZm8jy!Hz4H`5+R<6grG0xro8Ku_ND
zQN(+nfX|Fx4?zmj91ZfK?neq_)sw>~3iS)*AbZGMw*@t)`G2fEe^u748URE&&HDU%
zKxbE_IVU+QB=Ik>Bx)o{MBGKk_n;+L8sto|LXwU`z5(p-JV^>#88T=KG-P@Rw;gh_
z4l;^&$)aE}XXA?dn=++x-;8{NOaUFEl|1uUc3>?BZSPgXOxxhBfMhpc3c5iGu0fu5
zy}cXef1RD3Gq0E1CkI$TC)s#Yl_#@c3Ap`ye&4l0Pvy0nmD2ebImFOzZ~-ps$l;7E
zss=osQFK^Ft5oti%A}JyKBJ?(Q8E$BA=FSTk^xbhJKeJrkSbCWKF=hJrd~SEPohKx
z_{)aDzvc$SVHA9lBO(Q8#9r(&6crF`+bO{Sji@wuB3*%iXIP|=4^32zqq1O^jg5Oe
z5Z6k6y+PlAN7Q)0E9YTd0got$QVn(qFF<NlBwrB~C!MTo5*wkSG7Sn)lgRlAZ@^R(
z*f}Ors74Gjh)VD~4S2xs=^hzG?lAO`BcB^NA<8CNG5!D^Qz_l=@rv@m&?tKbwI@f0
zAHs0fu=XTVPrm|>VIM;IzlERwUqDI#S%8DKJR*Nrv7jyy)FnxE8Gr^x6EdJ~9Sa=|
zx29-Qbe}+1#K>=GM}j(<s6Lv6H|;>~A)lb%0%jc4p^PZQ6X1AqB-J$%?65nsI|^=(
z@a`mC3+@woE0{!pMiffcgQXX_!XFlNo54Y)Glh3YcSl|fbuQAT=@%j|L<32>Vu7v_
z=qi8@t|jS)Q0HTVb$TE&@L}yoO?R4Nu6XS|-)xOgw<lTFK4+dgoRs_oMbrI}{tt^j
zD!WsbG}MH;AL}jCSD>Z3*gm1GdDbkH?wsxT<Hawpd~qewb8eyMve0vRUf&BQmeCgN
z`T32oJY}-qCBcSsBX>sCf~gVw8A(%fSg{Cx5Ho-DqZ4;d#Kt~29dCVP-4;Fqevhb|
zujXBMY7?f)1yikHs{O?C>A<~#q-kfkBc;<vt&w98Fk5EYqCL^JnPR?`@8K`RNdCf|
z_L%F=0l~aAd^lBA^J)FP`UkbYYr5Z*tlAUqinj6O%pSfi`ocH5El)LsZTqr<FqJGD
z2!n0<)yS*wLa$Q>Tc~?UXU>}K3p$6ObHwTZC($)8=(d9gFsa)CJf@A)2O<Y}^4&uV
z^cI2M5>o<ZLN_kZ%>vz=L>>=d)q;MLpx?wZQZMH9dsgtp_I?j9k6xP5Wq8pQ>v&|X
z10GoHyqrHDGvB$GuvDYCHGE{TtU7k&ueQ%9qhz!#WwP?}k5qS5A82An?ik}ev*!C3
z1$!H~=w{^0a-zIpsj7DMkZHnJFAdp3=&TF$CV}3Rgq{~II9dfqYtqp+dud^Jm$17l
zx%*gxK9-=4VUt%hNGr@K;l0we0e8Nknl*tR!IHoxFszT&58j|DFi$B4n?GPy7IdNn
zRp5lluRUE6I2cen_$lb#P;v@zeW*DVT=>fva+&}bp3<{IC3V7<uLS@kZ62jn5}hlZ
zGjYJM0d)eV6wT=XJOINDLjn|r2=rheWsSW|OQ1B>8Rf)jpbb1;xZnZ>Bqf+OFt&ke
z=>pZF<S-lpDv#_(2l`b{Ms*c3i#a)5_s$u{MljWXTn(llz-4oeZ=4}Ba^TxZ%;j}^
zv}y({c{OF7J5W;%nt{ALMP4gNeOoy#@DS!k;&RXi#)B0*lFXpgt!aK21HbFwcN%!E
zfh%8dOp%~L0OyL<;~OYw)fowT`3NQ_4|M^7hl@Y#uhB<?^=TeDjx?!s$p&dj_HWQD
z1~1XfdPY6200Q_u?4ZXr;b|yl|AewJWWE)Jutrp#bfU$VyPuP*T~v<`r&S;614WH*
zl92uEZA2VIt*E7oB%T|hT2jCe(nuj76;+@UB_g;a;!WR>0cU`Jd@$fgp47rxQBsPu
z)Hrrgun8!<2tSOrhlphzVcxP}s)1_)w~mLpV6z5b+Kkb3effgEO3+uqR;#m2pNgD<
z`x-{u^c#^k_zr%I-xDvIoxsQex|gu$=dYnl2%Gt_j~#pfUpfF}Jv#QQ5~$Kv3h=t)
zjz_Q|@4B@q+?lFv`1F-~uf#9@_3Pnd0G^v?F7iDymp>+>SHIC!Jyj5vGT8nM<<LEg
zHR_w$45&Il@i!tj-kn-7HVMY2`0=^cgs~}Ud=V~$K(|1Lzk74R*eDnq<NM|u31edt
z0U?h~MYri0n(qOf(-p6sQ_h<X!95e`@%~5p&Cq3w9o=U5MFZb)cZ~0xX$h-Pzi&P=
zJHj1{MP+>JuU?Iksj_n32T;31C~JzUQd?VQ$@|)<hOY;=K;t*2TIg``=BIMPQiXcG
z1@x5B&X<BeKXzTvZwCg_=IOnWz3=W%P(^s3cIR85*)927m>2lZ4jGi^p_NE#S3R&9
zlHkeBzbji{6Mi7iZmrY?^^qLh_x&FADRLVRoQ&jv8>f4D75WiW230{docptw1xLZQ
zse<iZ{uwNL^aQowQP=uNbRvTVt31OZhQR$fxQ@;aLJ-!e52ern4_y6nyWpyND<Gz5
zmEtRO46FlurLJ`kw(_tSsX-?>qO$G_TnBp&5s}xhDJ)&(k_=PbH78nOaQ6$=wn#cf
zefow|+V`bOuP;A>67m<Aw5)7W*G5>@<Hp;=E~kGd`)4Q%f370@Hz5!rmdv)$iN|U^
zcKd;o2yWi&`MaXO-}L#WdG(=C$2vK6ZL=K@8|Ujz3sg1OrtQ&FF~_$$qG&r@TPm7U
zJ*@b8DrxHtorWc%DUJr06_imK>RvX1y%0Ksg$!Ie=m3KELI@)cp8>w2Z-bmgsLm4t
zP95w&qXawVEjt2X(J1j@`ykw49EZDMqB;}8khQ2hg8xS#8sK<>{!fs;Cnl<0<AIUD
z_%Iw7`h5XW1KIw7=f)^2xgF^)bO-W+XV?$d?li}T(?RyP&?cTg(U_?)jo7jXrxlfH
z5=CHqbkHMBH`>N9uSHs#C8u{}khxFbflKqFJ}@-Gj1PJavi}Z+VM+-9D2#nsPLkxm
z61smP^nWHQmX(CU66$*U^sUpewmJFN=Mt`Kg2kN}9ZLj%GEcpkqRi>s!|Ud*Pun(U
z`4Kg*PrH8Z`XhRtcG;@6$U=tY5<+GU6~DdZ)|Qm6OjO%b){<{kluWj)C1mQi%Wjn|
zml2ybryNyJ%ezUkdD%i(i*7g1G%s6m)Ru`B;b?ItYRAzM0-)rpk*mw4I9is@{SRE#
zGdUsCJ)==uI+XqNoUEL*Aj@~B;MloLKxFRXm(DMoIGDI}W#N)nxa5^$V-x=cav@#)
zLLZ#EOb{>2&Sk^>vJn}S>X*HNE{LJeGgRsFft)1lob?Nq7rrJF7cb3IujFK4?Q~YK
z?0-0xxNvcvx|Cl&KYdxFu*yP4&<;7?mZvnjusf`Mp1-m>(nCVoG+&K4YRa(6jH3Ch
zLh+|($$IiQ8NGP>>de(;0)^vl={tAyVeLOO|EW1~_Ts|XtHRl<iPzl=ulEbD_a_eb
z3kL?C;nK_J$Sq_s=<D03W=<{3A&d@Kp!$~;5Qen^F*r&st58f$n5@eh6w(q(`t7T?
cu0Eq7_UtTKMp~a9AdJ;;47~-*6IR~;0X;x0tpET3

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_308542.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_308542.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..25da6e1fe0cbc21afdce1eb60ebaa169491947e6
GIT binary patch
literal 11700
zcmdTqZA=?UmfilwZrj*^9SBJv5P}mv0wEtTOcExLFA_Ecl1vC0uW>g7FgCR9e316a
zGn!TGWLB8jJ;lte6whi-<7^^@8Lc$zuOp+ClD#`=T{s%7zMO=#^C$nvW>z}wpSxGx
zZsQOWX6E*Ex<+(Yy?XWP)vK!aRsL7KUQ58!I{DknXG#g;&$uEz#&qH3AsIp3A!vdo
zT|}SwCHqLBE*q2gDM*4LM+7=jSMf{B7{v(nDh$_X`5JJ=8gS(ra8+*jpq5sDsJNdV
zxKB+N(i(;s$<M(_9+O9F8Ex*?9|9ee7X$f06|MVF*{91R=pvfR-JjO40XM7xH?9H4
zyypx2=bYQ1fi?jz6wLnbIpP|!0-2j(G(Byh3qB<K3^IZ-WLCg<owQk>WAS(K+M{QF
za`v>n=XhTSPrY;UCx<(Qvi;O6wXRocoxHl|^vUDB_D-iYYZ395lf(bZ**v^KeWcVj
z0vmSqLzDN@?E&jLn6eD!hAd3QYKjEGDY=6C>9GRE>)@)m!VGQ+SIm`6DhVR6k+X6e
zCxJ$wlq=<m1=uE^S{e)Rl-wq+0K+F?z8MOe0czzoPpSY8$bl^a9jE~eQ!C@Ph`l)F
zXg@)CHC!22h^cTYTxZGagoKgBw?-Ow<x7(*a}-7@mnf~<FEd}E-&Sq|SA;oOw_lMo
zOQBx{M{wn!Y>1!BXkt)?j~S;CW>SHn7@mga2~vV~p<g9OasozHKdsPj>#BabSNd(s
z;xC6%;|jRKL76Wjpj-;>fn1tFpvotyQBa>*lymJSHCM!0FfUSX>Dx|3WS7pss&0Qx
z63S6n?Q0}Uk%TzgEP1GLTcA2?)Ep|1tK_O_#RKJie3IY^*tiPLEbO5j>-3a!t0ifa
zB+2bqwPFUTC3CiRu0vh%8g-LI<2CB}QcH$<%{tV#y|y<5X{9B(dR{6l$ycOQ%hiq)
zh!V?wXYGr^Y`9p?a0k6<)g<U6T8&S2pbqMqNzh`iK<l}>b;ihHT%|F%omeJZjc^ur
zarJ*EN)1_Z&2>78XyFw8pfl2#Mbq-S)UsN0>!<XX(rI~h=K(*U6=`y`8l<sneOhZ!
z$<{O3GFXG7^{HgeTVs~Cm!zlWwu`z_l;$g%e>Z27X2|W9bYGx}YorNW7u!UQ7}&#A
zWzBfQ>$2sVxIGfDlX}>RRiF>jT8I<%DTY>Z+cHo=hYGlGh9sy^uZYM#I;$W!3oRRM
z2OD$qM_QP@KhnbN<7C`kNj7PlKuMZ`+lO1Sw4+{X3G9EZSGHDN-A~X3f#xi^mgJD@
zey)mZexQ|BnIwL+z5V|t4G1GvKU@xJ*mPYiC{^M)_R4G|ucUp~$C)9it4+o$#vI;J
zUg_~&X4vQ0iay7O?K!rb&v8#1$?EXO$jf{#UOUcuhFHg#eVFDIPI~wXFCQCr^C}1H
za1SxOa*|;^US2)u@;H3E8+oM&RzQ`8{vKXA>=xixVKj!9(;gqMb@)7E!%n+{rg^2;
z=V2LJ3$Jw8$9*iX91uTF;iL6B9WKTzl=Fm<gd%y0C%bsElh5<|*kPKnJH}RuqnYAB
zR?(e-I#+O=Zr+%tkRE7gHNedq(ir0KL#yg;7Tb3g3y%f6K(L?`2^RaAynGx)ri7Or
z_;CBj?6?SnOGP)IFBON~_952eALli~2g_PFILvx|={}SQ_6|=nKtZ6H{<wLyXK>Jq
zB_I|CU~L4*D6A2dmX}uvGWGIuhttWE0$kVvq=Pq#sP+s4Dp3$Dwii4(z{>`9!G8m<
zrI`u8!|k&}eWl#M8wczx<Mg;eNPee}p?UQchfA2U+5uGE49lwrq=GOQ$Y10Xq^}Z|
z*(>ZfZwm}r_M@M_ovy#?VMo2=4kuH8+2I^@_%3_gwT>ai?W^~)&Uzm+HeL_4df1Rn
z_A!TV%<rljzitPR9d?n=<F-3Ju$Ol4+P|l%5n6b?h-4pSSU2Nhdx1Z^u--ke&_Uw6
zQbMPnstwmh$)vU<c=#D*m^u|c6)jIvrNNGG^UZhE)9NT0ZB6D^2ai8nRZm&VV$H}}
zlTZ|<jOK);3K^?{$5Q5!=mli13U)p#utcuM%44ImCsEZQwDnN3pe=YZMOmY}W2I<g
zEu!jz9VvZ&qM!olE8-NQnt~lmYAVDb^~UJLg1Ri$5kHA4_s_L0RKA_k7?unL5f?IS
z{p`%=7e2iZpO~#lZaat!2ZKjbYq#jlk$$8v|LmR5kAHeR?wBo2Rvtk51HmIp&@%Li
zBUTt4LYAs{F|styo||j`x_s{F7xww<XwPY6IgRw)!6PZa9Q>p^rih-O_Qdm$rD67{
zh=`in0kbKC`K^|kst#92PR42y1@*sUznc7F@~QTn;Nfq9M8mHJ?hH*2MIEuySv4x(
zm$d9()HjF7lxf2!rf7TAicICPHe}kiV0t@VHCy=Q#H{sR{ahQ`@pedsm*!~rXyi!D
z68Ao(c8AENlCszdR8ki*J~I{Eu})i~C9$D6{bgHx2vzN!+k&c&q2gmt4lZ2mPrNsf
zxHy11orys|>hz;xf6{aXXr>o5FLpHE{$+XmD5`9l{TZt4KpQ%q7#H5Xkho}1ylY3t
zewuJjpkotg!$dNl4Jp4};pMkvyeY2!bjxf5DsNgSKQ(8aFZ_C9-in%!KWRhFrxIu1
zeM((`Ia2zm_Hg^J%y%|SZ@AqB+#8IM%JAiAdHB7MEM?4(w1uxk3&Wn63F)_nWJ^WX
zJ7=fQ{<`sQ%S=nMs48wjMfJ1WP|?1SHuZ+KZ%az=R?k$&P69(P8CRm>@V_<wspXF?
zPfN~$pv2bC8b5FTv^m~AOU+H7U5AntZC{tq_s(xe6(^o_ql&J?nI2Tpld7nFFz|5r
z-tZhb*P5(5_AjO<?N6+zu6v=UH&NG%D$cHt@lq+<c%BRyzta$K7+kS#ywk{d+bo4@
zT4C^-L#X;t(%cqOr_2Q(w?(c+)sbtF&gnV~D34Xg_Qk4y+ZNl2%m7)^=ssenu7s~d
zhN4%K#_dS6JtSY!7$P+>D>7Hdn~}K*X_`VRI4W;|Ax-ry)$-efp=J3HNob4_(+4+F
zW^1$t4($W;!{U3zvkkMZr0p;=AI5B~*<!Lpt-mqF+F|r!Tl_dG-h)hg=G60wuO0Jh
zwEx(XX0*Q-nR<aCqvhj?Xl3LoGH!{LBV)yau{ExqReb4ygHXMHt^rlIh7`{<+9`cl
z9~q1~<BD%IwM%Ocy>`q022+}_CSr*e#G1a*RKEo630CDAuU)ZcyozOfe%9^8u7~ts
zH7jJGIC$S7IASD|gOX4nnok$S7{n_(L3}_0W;UHPMnAv;vVfeEbEFWp$Z*t>?tx*r
zT>*Wu1z+`m@2lWQ$=?hpIpqlEZq-ARwETfW^7v^Xn-Wj~F2tUzpPaaAPR*%sJVGlc
z!TSnmIF%0PV{kbSa#cc`SRcXO*{Vm9#Rx<ds~=iMt0c}wGFg)qEMF#jF=AeUN+l`o
zO-IyP4wAq)_Fae4o1%1`&m>VF$q|=|5~qb#c{6XYVmV^32b%lobqr9xjnYUQDN>Z?
z(@tF43$oR7dVm9dz`*IG7zal)oIy-Ii<yJfZ4f^K;cN_AI|+Mr67~j1y+TJnC~pPa
zkM=_Zry1EK@w4)!brMe_TUMY_Nm|)}k<0rZ^v>s~wRbn3e_A@})596L{6TpSVWYZO
zygh`Fq8EY(IXw*i+bF|~Lt#i{vhEOzw;gMM*F71F(-*voX08l785Zw<RtPfw3m#iO
z+lO0~-ph`0hF4q}X0Eb$t3XiUxCX(4$L|K8+39kOjk6^JCWHsh%Pd|-Ug-zdZNK1}
zvX=nB;>G9H-U&a$OftL{+)&@}kl*9?+Dz;@jBp+!C|J)`FT^e$mzURKk6TbaUS4xe
zDk-noaZH0hm<z!L<`vlC=XKZYg5L|CH_hi~RqU7<UIp&vD726xynL9x#vZ|=;yvxf
zTl_U=mhHg|=_QKb7yFu6Kfo^HF7u$|f<#J3P3;NqxxFvqxYe3aSVOHTlNq}x@1F>^
zhbmJ#V`K-?mBz>gU3o%Lp3s%2OhwTWWU2_BSTg1dHja*-h-;I^-QZDDg;OWPC!^hQ
zMd)Obs*O7kwF^AQHNfC$oef`#(umrMkxZezk&f_zVEa;GY1EGjE8|L3P`e1G(%h6Z
z?_D&vB6I6p_q;4=KD=l?g3L$$;D3DM(T$|JCvomPGM^82rZ!Z>95cp6>rQ0d`Jm%r
z=e^FPbw9Yh;MGlC3}1{EMknJfbEbO-|FG@x&PO|;-{QIV(7E@X>g~ZJ&w!zpm}&ap
zH~I>2guw494>Mr6^_xC%fcZQe9Y*@<coWjsrwp4vnfOh4tS8>^>G@~?8ER)0$j~$g
zE>X)1IjL`5mJ@l#TN59bN4i5-ZyA@BgrRcTKo|<9F2Rf&llskzdK=Q)lKP$CwNm+l
z*v#O}FH+kPwLMAMKq5NR)LY@VBED!}d<WXpG)JOM%}HI$+>!Z?gzk7kahyF1E6KLw
zWtI=vCssBD?9*}Au+Ki~#1W$O;H<k~=z8IOQ+ZQ+Q}=_+9r?WtqwITQ%D*>ePGc(?
zKaR|0h-u+APgJ;q309wg^sl7i-ekUSX~CSza?!-b{gy7E_GOIsNVbI2k`8ObI=EiI
zak}t~<VY}rImwZF%}U{G!pd|CE+15R4pS@5gd{@RkS?Sgl+&sYHG#a9%L*<}xM(5Z
z5=8@sPLBEFR4{VJBuX5DN|sB8VU708g&Iiv&HZz?uk_cf(?56nN`Kip{d2dk^p~&G
zKX>~|e+8|EKUkj!dH2&-nQ(EV0RyH@8!*8TVe2+o(>^@LxV^(3ciGsm7h-(p<+1_B
zca>q>Wo=~+H(e&_XS(bi7B2M&XSVl=Hy6I4c<F}MKgid+9}R;~N|SieB_Av+!<n|W
z(3p9`GQb!7M+qNW=dgTG29uF@tz??O7^}p*1&i6SDR{-Hj@~wQ8&udT{JIJ+FW&KG
z!C+7{J(^Z9tpl{<z~s(!awDDB!I>o?G2(5kYjt@b?dClI1rhlsCbSz~{~08nX$(`k
zurAUDO0Wx5dQwyK;L5`r_ioHJ%+d1)(1A0_`W~d|NokBPl=5Pgpb(!Qg3iy&;AK;;
znJ}~E3C;m)2Q-$37q5hrjqf^(7gR9#Vz$vPWMX)gn3uCrg0^L^V5B4Xh0U*E`2_*6
z+o8&ncAj+diXq4rt_aABuXzL;{ZsrtbV!s@@tTrhe-0f4sbUrRw;-{sAs{wiWvz9F
zseR#nx0|Entpf=~ap(ZH8ZF_L+pW=t1zl-EQJT<|rgZsJ&Ee+TZ$--&bQ=?jjS1aG
zZ26&Qq#@iAEx21eQygoUDUFj5ATH=^3B`rP&I?I+>uhPn_uGSQ!3j*gHQXvzzSZc3
z)#;9skt3gN`@Htk+Bx!{HNV$9)wBiMQfh+`uxj$A)M52Ud4E;NDOIrjJ1wC!M=FuR
zn$qNjc1K7Y11oX4A>@G16prCcw{?;3JMT`v8+H8hVoIZ%(uTE>hTHmx_s-<>WUTy`
zfi*A<LR{)dYBofx?$*xK#>r&Kjuh}og{esQZDX|PZs|;E%<+#~QU#kJJrNt2WmEaq
zzgj7!YPkgD8$2fLA!kN+!y@2ADA>*K;0XPnTg;qxPzX8|IA9d*-5M5Aym*)6L!K3s
zruzg`Z?<X>nyP-3O_SeGOEaJbzH(SHPEN~K0$K=1W#0oU+s-K^+XaEvKS6k<1+^wz
z6LH$~C7KRGNip=IAiPrIYuj8_;LY=sMu9L5Y&WM#k3orJV5xF>t6;EoIQ0q)2WJqn
z$#6giKjMJ><Rw4q1CG?f#qr;nFL9h)+`ZEB3Xf8Y5Jr9uVWb*NfhOCoVIu|CHaNCg
z3B`o4>ouh+s>c<TYGRpj#^J-tpJ82$;|e2$RYLS-)8|yHmth!QhvO-`82+%s7@{4p
z``zhy$e6xQVXlpXL4^RxAYPwHb=E8N5V0Ze?qYoa@Zyb#RdMDKHL^~mD~3zI0GwZA
z<lm>mr5~+sH*CC{H<O1HMG#l*OzA99Q}|$X@UCmd6>pgF%xcl*mIYl)LeY}YwJeFv
z!S-h+%bktW8>79krU(9qfqQ}Zp2vNU`ktCjL-=JWU9{98OI>_&ZX#i+OIq53KS>pp
zEEd(EqMCT$Tz8_VCRuba*o9NtZ+)ZR0x?YyPGGl13#TtYc2){-Qd?~CcC=;J;^ro_
zx#@Rjzq<6rrR3(r^A5E6XgVwHNL+NF&H=P(Ai;PSeE!7M$%JnbF*ner8zJq-4H0K#
zFVd8xbfELWsPx`Gkg9H+b=)(~HKFYX7po4Vs>6Ticzo*7sbtle#MyJG>Rh64cwuBT
zF*cs?`p}p!G2%mgezeWMOc2+}qq4sc#4*`%8PqyuUHH>2J0p96YiDrnm{_|`_F!OD
zk1TWo5|<S*a%OvEa)H{qtRoC%5OGnKgrZ1P=~#tJ4`fc#Djf>&vq&-^f3v3qzh5E;
zWpws$hO$jWnlAiiC_PF*u?{_wgI_%T0D8)-Ul=I4to&a;@DWf2)B)`JXEK0TSwogj
z!^t!GDJ`w!w8LaT$LZimtGb>Cfon)r_-ThtCgwPBL;^?qJZ{kW7`PI2I=qa%0URkB
z!|;VG4Yz>81#H7!A)6rhDc~4w0|deU5&c0-Lv)so3O(V-+XwLVoS5*S2JHBd+Q&W6
zz<z*H^y!N+kKZ@$_wj0$@%mjp?~3D;KB(d`Efm@Fuy7+ND3m6<w~?IzLcfQ9?{#<u
zi6v8E@Wd-_N^I}%ioV+P#ipm4gTb~pv{db$ZJXcmwCWU6R0KOh`{1Ie{5y&$s)LKE
zB1oN=KAB7w_61KZQ$(I65?EF$jH=+#<$QuF2zCkk4dgflOn_+dN61at<m}I&{G7-K
zz$dsdUyv({%>i!|=U?Z7yKX;RCGr}n#Nv31myZnl_&nkI6Equ}c1(LAy6~`&5P}4e
z(&ry{F)ORWV)Z4+gx87Ev=4b)^gTjgP;%18Jhb1%9AG~KWE^{V`{2DSCrR?p1oiKP
z{y&J)WfdXQ+$?#&WLb8aByG!P0xq(sX==GZs1_0hMR#hZYnF@B)%u2qu6wRbwUazW
z{;B4VQoDsP<WKd7`~PCa=r84jj1uX-08>StAR}k*^iTIM6Sy4rir=}j^Lrk*K59*L
zpIhv{gt{*!?DV326xl};hey%du9pJ#ax1a3=7n-AsZXh?o80@{vK*I7w%o0msS(S&
z_IyQsL5by#6Oa2J^$X>t{DNiNZ>e&-@P!$xbT|9o?|-QV=!+9%A!(8Lf?|Bn!`6GP
v%LEkXm5-@Mlu%6cT@t^S#}+U9&}H9CjPSChge-W`N*F7WhRXMKg6#hr>qrHX

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_312025.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_312025.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8c74bdaa23554fea24809ef612263a6ee5b43282
GIT binary patch
literal 13580
zcmdTqX>41^neXwwC6W@U%aUd5v}EhBWyP*yTelrqN)(^5l`=FRCF>&PN6Lrth%!aG
zA)8=LrH83BfT^Z{=~!6PMSw8b0&%)s)WKp=PH0rzw_ZTl8d&(B5~skTe|Eo_M^Y3`
zSx!@6u_JNbT;De{-^_g1%)e;0Dhh((?>;<#rHZ2dgfpq2OC}zh#1wUnVkm~5qRt3k
z`V39-qG|CN2~FAQ34$jDDtwu(jOb1JR<iJnY=c%}yJRBOR|Wz`lDm9V!bsngq_HYQ
zxOYPaU@}R{3!W@zWbh|v6pZqH38P{ZOX^!NKOCM3Li0=z+KfIljOLm8(56TAY!F&z
z1Bfx{7{%y*NiXHy5(zWgfb#jdDa`0MC^u|SZrq@}V1x3)+~uPh#<aGw=@nKp<~OM`
z8m5vdvQrZ!!i+Lwrr557T~YF;^h_SKD&3$}*#_lXHYmqf6-+r`&1beT6>rjK^sqzp
z>2VpZ(DmCN;eia<k~@fu3a9b!aS)<w6i0FN98FOZ@XHSF<oZCZB)g8HZY3c+V!$E7
zI2d|P`JFIHI58&~6&<7MMMIBpm-S*^<aWYuikFN#+|SiZdCBGR-L1TI+UlBY7CtS!
z`0{u&j#^w&0NRSfUtVgu<YXsZGgh0u>Acl8X?34>I(Aye><)L6i?ubm?b9<&kZS_G
zdo0sd_w?-4u9+(qD6+WOaktZ9u{jyLWp_(!b88#a@Ma5Rzc6ccxX0)076LWv0Q8eA
zW)E`sxeh_(rB>8=fogxpvZ@rRO5g9g-oMZvS5<kt6Po-$oBwEV7^%ybRojqi+pk)0
zv@f>DRSi(7)&<1A=e#dI1{@SG?>hQo_kd+El^C*RaxgqgvW6;%uTk#w+D)Wa3}X=j
zL#J0twMk1+x}};^af&(UCj%nK9$;urkvhe5(49xasX65{!710lX*msWZ0biMh8h(W
z113(2v2a>OJO^{ab+}fjBR%P!fRJqhk@p0Id=rR#PQ!^Op?{B_({d7$GI08=ks7i_
z2dm*RX3$NRT!@ShoEROR1!rXFB}t0IdkQvzqPe^zlr#gXa1$sIm!E`^Wk8t-ZDDK-
zp@PTEnIQ#Z@)Wt@6bpeXNbQIbOod`k30FL!PSvh`-Rb0nCY?+tQaCu%9PDDQ5L4Y#
z%9Z?$FqLtoTp8gSiXj#sfJgW|JW@b(Q^ZR!r{JYd_jx<}U&4@94<-{7#S$(fXYm^G
zsu|Wf##*N>;|wpevR22KotI2GtqeKgEIxI-d=v`YyIbqG@ZuRa%d1>A>y+JP!D;23
zoplOHdXT4wc!di%3Gk2$>69y-nq%_;AFIbmr8DD<Wm@<+co91dKL@Y8U~!I)y6kQj
zuS@ol%4>z5Qdt?EBOnmI4%UQ`$}n%TGd%6$={a7RY-?#=OSbSL;G3dx_+EtX#TM5V
z03_^lqlndF)K7B4NjvMXPqEKIE#`)<pTH7$sc%%2Ht*`7e=t}X*OYmCA82$Lxr9;|
zF#9XsZ@s>6VP9xCERUBqBW1I<YvT&N@!igVJJ3I08oZ43wc*x?{$_im=hMnaKibiO
z^c~(K2~*K~`e0AcJU<yaj7*IYQN(&j9xeFvLez|!I+3Z<JCrCizefl61m*K*L(ieY
zhA<l$zIiDs`P3Sfqg{tk;UVwfiZ(A$=|Ac1OQaKO{kxTc<AGZL!QjbI&xe(v{sjwC
zH+p*>!YohuPX&$z_sv_vdm<O^YxjBk9w<~-<$ifU75qNRZ-`VyZTA&j-p*99GB}9x
z>m!nA_kG17Z|92M7_iQpf-UnJm_&YYuybDPJ@P<X6*?K$Honp4?ed8dD$UhufAvpA
z*HrVWxT-X0MXHKW3sP1A(VkMbqSpFY-(K$^n+J>Y$cv+`5V2SRt(Wi`LE0QUa;6tV
zPG)XsU2cHa^uPS#iI*%w%STuS)r)wQV|Lo&a)WGj@k*S&WMyYu<Y+xQgqw)jO8Btb
zAmZr(fRNjqj?wWk7cZW)Utzz8D?4!XJdO_FX7Xb%9X)c~GQi7vPxcO325fjwrvg6O
zME(VUQ+*5hXUgD|m{DW}W=;N?H)$zO@igF;nA?z$OH1OUTz*Q@d5Sk_E93O(wk04N
zM3Z$u4=F=?O5s=LP;n;Ch~*)0&r(QXK3e9+ss{;NF;_-7tTByc3s(j(Tjqej5#Da%
z3IJ;lU@hBZEOOxeNg8>|xgxHd^j6`JaB@#MjHUwc=Hs#qJa}EQ0%!>7`I8ZB<;<M^
znc&j2AaIpj#il(OQX?i1+d#^0&63qbr@^({w)Ik5&{_!Gc8(Tm*R&Bvf~n4_@VE(d
zWfrtLRpY4w9hTsJ0$P`9!(~I~rD{CYoa8$|*JMyAQ(sK337605M@3JU)l1S84L!AP
z%q>WORV?QWDLti!3ed0qE9|{GuF$3A>No?TN%>?61vTu?Ge&`BTvp(=KSBF)t`6_p
zNuV*dOqUe5lDej+eiK~P+0=q@uHjNHsZwM1?AQcT%~LVSGB7o4f~o4MnCJ{ljoB?>
zpJ9!R>?Y4nu949Y+sv3nLda&UB4*-QA;q00o(}mGUCpx#dRJq6?*DKMP24W7fpD}P
z_=I?xxu$jbmW-9iln+U2aP?d>SDW4ewHd8*?@JX|$ch+|gNAiTo%Ad|0X2Yq-7Z_d
zV_P$N$u*`{t|fC!a2gCr-UF(YXFFHL8P;(dTw29dr%MGcf=jEpnjEDy0s5Vogd%(%
zOOKm>C7<5?SMupSoCvI@-Rt>onwnZ}&w9?8s`0dC!*Ei}53<{HGF*yJg=cRDrHir-
z0A8aut~S^H=h||4X(q~^#E?2g+}<T^Y8TPe73%*7ML}i@HZ-w|@vi-jG%kOVLYT(c
z)T!4ARv3$U&m&l@q?$?dQpSB{#?E5%o>$o~j@#UpDXYs3>LETTtQnW*k@9iyzRWnM
z#%)(vys~T|j<8I4ghf(4O#tfiiP^@2)S-BZjTyhli>JpOY$?u5iG{>sgNBz9Q;x+e
zOpG`dYfQYDak_b_%k5;r%EJSLF-_U0!9QeiU*T0&w{v>jX0b9%eLF9;5(7_qPWagH
zhpoW)w&EzQ-Ll;nvodM+S*O>Mlj-ESj3gL&$+ot&wl)W^O_tg(TBj_N>$8qr`ZC*x
z$I*|Y8XVQ)aS*d|64Z0cxhbb@(ghacTH3)Y##ra<3^sPvqvNd0Z4s<cjZo~uUao0g
z4v=IFipiuk%FD1RiLFiYbtJ!&U@~K}xOf?%l8aZbnZ_<&m9~vR>9^W!JUz+NR$fg;
zW+5$km5{+Ld4*uTTF&v(Nf_c~UXDpI<-EizaN_*<*m)k70~bJlBrCUCT<6C}-MpL(
z3@DmRz!1rb!O(2r>2poG+JQV9nYf#j3l^|ea2Q&WcJCX2uMvK(S`Zsx_clMx?p<#M
zKhztqndi+xeeh^pU+;b4K~{c6ZVX)bQeKoW7Wfnili9CcF%|`nB4ZuSmWRraX{S&9
zz-S80g$9thDN+_U9`GJbXw1R3PzNe)LYii8?}}U((EsrD2Zn-cwez*X%HXNEq1q=;
z0IK%+gMP(|!H9Fv#fsJt7(v>~Uv=F$vUntH1$<QpkoEvJgg34!d|z~3xu6VHhDPE=
ztw`JI?Zb#pzSkLa2m9wOp)07c8EKm%d!tpqrK7cX4&HqQ?H)qfAp!5`d&40~@YK9B
ztVgCD;c-;hj<oI3n!5$Ry>Qq3Nz=U}X#WYMJppJ9Wg*jtba+o#zE~0IM3rsPEof^W
zGW6f8i4C9l^3>_r@aZp_Vk6_|g>hsU_YNfVCBciow1x{pV+%isRHBOA5f3WwLHgc%
zvU~0?Pn^7W>5IJBnK5*D4C%+bFFXWGy3Su0I2vk<8Jj+0Kc2fYcVE@z?S2R|Y6*-5
zxn*smkN!8cK41+tB2!JcHg0NpkZ-sqpO*(^p_AdBUss0v7cG%XclCE(N7Y^Tw#O`!
z_w%QGoexUNuGcQqh8iM$pSDDqX#1TP?~cV@8vc9|?HP`}GIGD<Ro}pa;?nEp1#_q*
zQuC=k+7mV3X}a5g&-(cQYJD+w>dgJ(v%VJ|nv1Vpn!gmh81DOZON5EE-+VDTc8~sK
z5;Y!)4ZnQfe9U(^QCOO${{>W77w$v_JAJ(gb493X{s+sZ9YE@(*4ynj+vBF)%ci}^
zv{#sI+|=dkPZU>%h8MPkt5DIdWpgVsw|><6ar>S2xcPg_<^#xl;5Y1NbDzw`%`f1d
z%7SyKus(bi6+8z$z`iU&riSqAsBpip?;-5En)w>o;=Q5WaYL=I`+=$G+SvS9a5Qw~
z6Vsi}yThoqAC>pt8;zZK<;$}pu@fU-IAgC_(U3L9OvW5e#5mEAGj?fim7)ekuZX^(
zDDxSSuOIJcjM*Hj32%=ZcKNzj6uLlTs2CY`AjJ-!ECJaL@Q@g*!b)UlL5db!W(;b=
zG%BhOzlzNJkz&73olqD8T<8Ka*M$d>X&+MT`>|@Zp3?1HZKM?72>KzHFqmPn4K+)K
z+r>AFBQ24sczriAbi=XPxJGXZ7KcuKI2@6LPoe5IRNRL2ZBZqxX3v)|AG_C&dXA&#
zjwAhX7?q*;y~^P6U@bCi3k^d@;r7U$PxX;@)bPEi6*U}0`a?b$b{;AGihwC-ylz@B
zg=9C>i|XaAd(qat@#6OA=pPlmD;p1I<C<q4XzbKT%<>vK^;*ovpi>OeGv8+DTE8|h
z8nlIFe^fLPUz9EFya4WrMLlurh#-DT@|N^19loHNfa2`nk%J3D0Y4=p@~9Z`k99tY
zPwLZ+iW$k93Xj^aW5mSGvB!-ul90<i<Jb8me(9(<<Eje`u<QV1$l=-mQ#py-qj6Mi
z(hu%M#K||u#K{;DF#=`S`Qy>L)9!XoO)f^@!VVN{5hunY=VX8pjDhUH$kNJd?)tO?
zi=#Jz&t1O;ubD`@3D!n&E16{E#D%5jG*9ov0aq<KTl{VMNn_ctA9<QyqMYMcqi62=
zbPt?@Q*v-|@7HnKCFQN82}o09M`D8v%%fuz%ocn8vjT(N3`ut)T!N~H*nQA~-H#)z
zP1}-n1Pt#}T=*EDkDrM*bA$S64lZc%4oW$AGR!BerDp}d2-=gYxKw+;cvK9d5)Z8@
zpy0}t374hp5Ws^gSu)sryfZ@~#(Jp>YwlaUUaz1#DLSUC)8`oLfw_jH7L|Rk>T2E9
zLG(`70Z0gq-^GZUA^LAG^}gwP=|U-78A!t4M|B<X;^!X}S7a9@ino3x6%}tIeCDQz
zeF0#38H4Q$JGmxek3fmw0++2#Y0U?{rc>9`U@eSK*DD1iQm`3ppnk#)vik}#F<2i)
zg|$FlCaCVLA7{j_+3ET`)`ipg_{#VkTq;k`uy&UVZf0bHg3P{zfh%#e4M*L$wcKVA
ztflqNab7Y8H%dHh6Lft-U3~no()!wKIL6_SK<MHP$;<u(VBUtG>m}GyfALZYUEb9(
z|CqNwVKjmAC`5&j(&c&k|11${wt0J26<8EvEmEVuI^Z7wsS6rHFmGx0w&$kj?(pwV
ze}4MDX2?%JOxEjzouCelMXVp6zjOY+=Ae&W(dq&Q|H;4w|5<O}Ly106g(T)69V=}J
z4=0MsL()W1aj+$5h0k@xf+D2<g*r5R<MiU`u=RtpiK4pYq9#<-6rn-KjP2=J-ZOyq
z4BYFC?-@$e*4>z0oc-WZr1F<skQRX7S4Z`q6@5~4xAGrLH*Zi>eqFnu4O!zwb>W)Z
zJ8$lc((xVp6V)xL|C+?s+C)Y5pG&pU+SM{jUleS4SL17mNp^)QZ&WW<hdV>nA2dRi
z>^Ppj%&XQ+DO=_d!$%j3j>n@AZz$s608S(Y475!L@Ws-pBk9575loKkkYc~^HbXp-
zDPofi8JZC-iPKo%-NgiW`m#e-D=FM%NU%2!{8J#5JTgwArZ^c+Gg9nd$aSBK{kiFW
z<oJCD@#lRDs9fwgHNRY<$DQ`=<$8COVy_+rr^rp+wHEF)i=N2gV+G1%k408kCwOz!
zD^mCwCB9S07;P>eR?ZhiAS6=$aV4i9{xs!}#F({jLXR9hq(<X`_a5--jAFh!Cj53p
z4ZdU8yK}JjJW5WPi_)Bkkr9PP#3=ArphtSIC^^{#_TFTLjMpqOPQFPCIf!CtMZ}h7
z=+XZ`I9@LjShIZ6Zl3|BJ|=Xq>rgVWa!?QsgHTR{t{^7f!dXo9`aEzNowtI!NOE!9
zeu<Zo2LZgq3a%#{TQBoc8_28~a636?9gN^{`Y{FvVo-$H^AhY`;iVuEcDEAQ!OLA2
zX6^Pld%cGJDQ@;Nh~TE49Rr^R?o4*sGCG4FK3%rpj_?QfBsfka#ASkCNbO;p2q1Z$
zWWQ(!FAqsN8ODXZ{X{$@qogNe-IFGE2^#$a{9IT&0J)H_$5t)eNGp_AWqz5D4eXCA
z%DtTltqxy#zx@i>?-~OU2VG%_Zy>JO>Fv!?0;cl`|Eoa;fh6e#PlB%x@<YL6NV9cW
zU5nJUVLIFzSMT!ntmp~?vwlZNinP^XG14|HYg&<}6)diEam~JE^&zA_6jygGt9y~U
z_jmT+PkcTRR}TZ6I`8T}|GvP>Z$Iztd7w31J?lRk)DtU-{zY-9^G4rdU%2IiBN6@L
z&~K_gYxtz$p7jsszc_zidkW@|Uod|xa3OGPUU^M3uX+E(^|K3S<N5V4@jPRoGtdKd
zJ^s0?9=|79msjsSoY0zrbs_7*PNc2Fehee&vpCeUP!_rZ{cw>BsP?%yehiQRnTQ`k
zY>R8Q00CgE9sZ7>D6TH`_9VcQ&=#zUsmo)Maw0s)DzZ0V9oR5Lw&Zb#r0~*=2#<Gw
zeQYE=$a5Wu2Us>d%EMPDvZvc8aP27jt85@qniXN&21G%2NU>@U<xblvoFv6|dZ<@d
zV04O%I%!5-jIa+1>(s*2FL(|H`!Xk+OAFYEv;bHeOA05jxlC*la>4aoal(@~fyx|t
ztOk$ZRA8SeI8E}o8i-7=+1B!SJ+$ypZnHLEL2NQptVm>q)J(zF1p8RHS{fDM*A<-Z
zZ-Y$`_5#j#zLZe!{3l#D$-y#^4Q233!awo8B}^1l=LMW5eDG~ZB_C3?>=oFb7`PNW
zj9XxBhUnCwH)CG5b_xhjBziJ09XfBF8WkRtD1=v-_@&c0Pfze->=Tv{kFYZ3;l9jX
z#;C49<VvZ_8LUv?glYj1dD_W-3{8KBn}1K>gL#ElIY0NtVQ;5*Hlff4XulGk^5hj<
zeck^$)>wZvd&9HniJtuI)lXi%pEuw=yaL?djQ`BrBk&Li`wjp8w2ywEHw9*YUgqme
z7>mINI~=T<?+8^PW6d(Ss|-7q+HOC8^ZB@8pRXHScc4692=>g6fHSDD2E1?uyOxcu
z$k_T(+sDt}c|LCJ^z~qExpP4ZzP6$U-;sp5BzPQD@>fEQXiF1z1-C`@(Ie3^w7U<P
z`oN=CR2FoHIzv}NM^Qx!Dr$+Gh_*z>qaCR2FftzoH(q7kjgrNZrQX|vHwWXD`+bK4
z!$BH%5jc%B<%#N@H_k4e{iyKcEqAuWs}HVKhv)@mVB|~9wy*LiL;0$h(wSBbl%~M@
zqTuDpRAaFeB>W4Uc)-8Fha-NvB?>2&9))XJH?$W*E>8}qv&mjOl1=c@96Tib7WkwY
zPi&-|7#>k3dCdsyZ;#9)_b5Edj7O8eOY!OB#J7^FIe4g~oNAo*s5!N8PWHh>;Ld86
zv4TEAjK>$C1TMCS+*iBpa2;c_y6l#gdMP<H<PwW<uvj(|Ax%s;&=x9jK{t-J;RwSE
z_9hKiCvd9Z21R}@dBLJNXTh2RT&+O`Pg{7cV7yzLv+kK$xHtjBbau+^+CWt(5QgPs
zSvy?a5xv6I%Kj7d_yB$`e7fNEv%Uaa=nCyswO@^QPoOWfSJ*N46$ibYPpPTd9qGKg
z<9^K`l5F?(`r5$(U-^xOD%=H^5QS0s-LiXg@q#nn!Bq{VGzC1XQc0f7+rOGmX^h?>
zvd@5)nC(1Tg$QVgi42#E*nRSd0-?bEGcGU+Oz2HW^LfJjcTK@t&sliC#w$`O;YFx;
zV%$w0fAUIrvF38yFVC>#kt46L&bpoMSqErl-Q+DBvHr=T@Ur7}hYP558@dqI3Ud=e
zC|)g)*fQpvVs27`u*Y(dS9DA}nb|4(0rn4&1*Su}#IVg)#WYR-iPHQ#rTq`8Y*j{y
z6mONhQS!A&Ocy*BQzFeOP60`T@>Nj@ZCI(Uy)m*lvMPl%K-ARX+}Co*B_VM6eoCbG
zn%=5-qhdu-=#yOq*KEiY?T!r}i`hq!X)NZR1u}Mty0Noe*&|AP%T{c3ckHE?V~ib{
zMq@5F;OZ205nSEtaCJRHD>mACkHrpWlRd_|0M#K;CqdOET2;%mvafZNvgjMVQY2a}
zNE2e1rkhuFROR*?nnlfO9?9mXvU-v=q_RemEl6bxN!CP_m0#~z=vXzAY!Owu<$B{n
z<JZMFODOrc5O-<9`LEB5w$e>s_0dMUB5>l`$o$AE1<A1MG5&njm`4``rPnnJnpFyt
t;S;w<ZbA!4-Yxun+2>^>89V#^$GGTma|vzys)Neg9@ka9p(dN;e*ttahRXl|

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_357204.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_357204.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..88fe791303f6d7113cfaaf52e13dc8f51e356b55
GIT binary patch
literal 10726
zcmbt4ZERClmhbuV*?zWTJBf*%1c%TNQy`E4DI^3ENK*oYh8Biq=(vub6YL~*^6U_B
zpJ&XdBW$SF&g|^QnXML6jZ{+@HH<1Xvs!8CXry+vtKGaB4c1#$LK^<Ce>M#K*j=r(
zd+vRHw#gXM>AWcSoqO*&=bn4+z2}^Jp8rX&*Ann_n?5~%y`CU`k1EomF91(}AtQ(d
zf*}}kk{A)+<OqrDvMKq9f+S>wm-J&!60!Kk?ez0)sK&_PPtGV9<wpue#i(wpZ^_rC
zkTcYuL?LH1l_|#M;{>Dqn7pmK1v5hrNN*6K@=`-E4Gis7_^ZlWMVQgQpxy9-cH;}$
zt17pTX&KW8%3FnjrT2&iWNKv0Ucz5pK_<%!+N)pCUh{(XTCa|=R_+_4nGGK(N9dPG
z0n}p(rVg<5fMu)9hxraNjZuspxEh#^O#KJsh!J*|v8b7<OQh5B7%64waSY1GhfqO5
z;Zz88-|>@&kGbADI@0et@my`_x!N&-9yoRK^qU3D#|lI)6SRTZDOV`$9`}X>4T9&~
z>~!d{1C2nCfFc*j69PFTkjDU9?Fk0PeB&WOKH<H@ssM>qqXNmoYM>C*Z@qc^=-aMi
zo()iw9@K*l!PDD-y+DM4ulV>2n^dZ!H$&c*-6~*2H>`szFT<@X!$q@O^KeSeA{~mT
zZ5><{S6#%lbG4j3q9llDJ-30YkATe42Cjjt#chpYqyhYJHm)%Orh=<2(r)A$fo5X_
zR22c7r~`9=8nhukO`L<XAU<XCAZ4z37_uZg=Cg@w;;O$DU2z_mu9>UjY7iY~{Z`a9
zBAzrK%wsdRnNv?7>0jYCaY_ueaLt?wLtDybQo(F;7Or|s7B0@uU%`alR!HMTTg$jr
zFk_$>H7ChfFtbO9l<eI`kj}|D%cv`BRiZ8ILp;B&+}6VUUgZdG6F39nCo+Z@lhuLL
z9EG*F6}6)FLaPR~B5KTGTiLi33@o>eYgxnf)#v#|VE;49+bYR*M7MJ!w`NR6jdl>H
z#qu<-;ir2}o*nDRvx8eRKDXt0epnu|OrAE-ks0scot%u@$<fky9G0X^GkU2fx@#RN
zc8Q~wXrI$SJ12*63=+4s;}o=El=`C`>x|a%($RK<w$<p=GI+hCd$=}k&zdy?tHx-M
zW}<s5NK>Ni<aTqNkrMW6++M$>cmRsP%g=;l5xLjCJ1w?N?SBS6vVr@!@-tb%Rdd_d
z8KJf~<swj=-M;TmE7^>7I8?AV(&!Ng3!|+m*@sOEf>Zp_$*+?3*4owPOj1vD{~w)f
ze3D9g8t<1b&dSIqj)2cB_gUp0v!EGnKiA52-PTHWfFv%JdkR}ofkgmO_#2AVB2c!w
zUZ(#wV>xw0EHaHwQc$=r`a+M9Uxtd3316D_j!WDjGEhvpLlc5B7(VZ1S=c88i;Vwc
zBgSWu<#ZYaS$I;=PP4&r);;C&F@nOw_$~<YDPKTPxmkB$+$$&}UN#sK)MJxDcetZn
zP>Rh8s4_qw6y!`WT<G4lSJ1k{!6~1|<z^T`843qkFK`MW;hf!q@}g@x%nGWRIq@Cx
zi0{ZWek+6M#Uc?|WTjaX6oMucW_^s;b#bZ$P6*mU>&#p^94NMjJmY0>sXa1XYL83@
ziY$XA?m@sFXM?lTu8<EV4|Zd1P{pECCdj8jV@fDo6Jn%>KwyJ{HUtKQDhc!jT$rOk
ziHw0zH|AqQVT?E>(53N!1Lj$H!9oPb#zN34zNPwvph61_LyK?d$Mt|9cY8bnIUyK4
zvn=Zkgk6|^LQsqNK!8^vgjQp8657Sp2;pVH4dd)IY=(=1T3jFK0RZ=i3k3}Tpaxaw
zyl*TFtbBp+ZirW*xzM5p5H$*_u>vYyYuHFwjHy7V8+7RSGoJr>vu!TOPK2i29&g)u
zw`al~J|7Hhhrl@yZVR!Vwy<|<x(#Y=NDkMOJ3KWzxnug03z}T8rNY60%M*l+)v>3u
zedliI5%eOGYr@M0yp!yEAR&sBL;nJiOpJK8m(UxNClV*pGxzAG*x?7Xp;YUCRApXJ
z&#Tj9x;t0Z8aw)6O+9aI&iHt1+lrz(Z#1vew(!Q5*c*AXEq#tRJ7dQlSZY(3GF`lN
z#}b{h9Ecsy)7ErHrk=NN=jk1>{=B|w#nQ~{o3k`e?~e69)SFZ1czx3^`aU^&<7n2s
zRG-`2!|Quuujkk8$qexNS8tDg=DX=zCYQUv-okec=XRXp^`~O5Kh#@N?!*XUvle)y
zrIW3R*3|LLwiQd;=j<1eJCS?ZzS!YMpqI0WvnhAlls=yA<m=n->pS9PzRvd1sq617
zzLS~BZd<nUTMy+LdilEExFK(LWOni9&2jZZQ*FBCV^iix#=6*+J<8km<ZZ3l>Q85~
zR^GO22^tPOk(2hGCj@Ce7*|PJR%On7+M5k$2X45Q=9a_18D5^_I|ukz2EGp6t9mQ0
zd}!W~{z3N0ubQ$0e8cW#l5g0zJi^xx<m)$myeq?GIu}o7{e1mvz`J1|@V4xas~?#x
z3)XpS+M1cmhJQ7jo#VH3F1P%~boa<z>#y7REk{>|Pu(-U6<0m9G-XD3OIuu>hhaJa
zwzu)-wxyQk>c5*=w%%#GJIJ>W@#dkp`azNBg)H-{-t72|A1!<CnfidqbEJEhH~)rQ
z-g4*QT{qt`@b!Ma{WNbr{c?Iyg;|m}IpeCl$(r7q+59P)*|K<$H*L*&_^MrTWxmFq
zKJsx>dSKp_nc-_%v%P%v_P8c*sY}1ZTUxTsym>pChIOHJzV)N_>-!h?=gcix>u0u`
zw$J;%7`!u>a~|Z)2k-9vYTuXp{`u6uj{M_D?(kXObQWen={{tW7ZMjz-i7n?=Rabv
zM;0Tw+O65wKRbH!=;xzf`0x00+j?`xzWc_0-q`=!(Xaep`g6u%o*KR?U+o|ayI1!T
z221M9&wJBhEaD};W+$)Txl~feJAB6wuOEW#XsG__a9WZ2ULu%LWx}5hXXb7gc|%)l
zAg?y0Oh11A0i{jq6Z+Ix+LKlPj@tPM>QsVC)ut`iZHqQICxbTzb9HS?<G-VNp2D#v
z1QKlA%$(OZem)G&%Hy8&3R>juT+>0Y8SH+9qhh_`SvKH7E>wDu!^YQVR9>O3Xch>L
z@E5Mg5)yh#83Tr#XazeW8zg>Aa^$zhlznSV`M1U-DqZo<K}>O#iYh_2!o{n67N|F>
zx~hQ-yNZ#a(5h@U3Ndgh%#HAu>#4v*(n6FdUCsR!u73$Cp&65bCM#W2i5FZ<3zy8O
zI*j55{KTm^@L`l6Q22sKz*S8KmlZYQ4|5>=D6UxZFmfsAd_lje*iWuQU%9_TFI$Jc
za({_lz7Bom{t~@<9s0`sC3?lJ!exmhIQ3hEQ$6$;Z5lDiM9@tci$Z5X#dt6HJYG-v
z!9dXzB7Yiy;;&@u<(?8G2l*$ojM8nQ>=s#Jt0rLkFgPzD;iK)!$j4+LsA8xrn6m;;
z2$NM}B)~#`0;SdzC;H#+Ek&Rqw7VR!80&(!Ky^>Lr$!lfPvq4?pul)%X5E1>go!xV
zafRA<bWaAskc4^w5RpSb8tQ=JzhcA#+MGO=I0iw&?u-GvMvmV3`Q9(O?sP5B+}(Wl
zhkW0eT*vo#`g?g=|3oRT)v|7&W3i|j2(*0=6o$^br@>4?-Y@JMpAF7J@C8w}=e(eV
za3_2TYo7HZviG2X2n|QiPAxl%+B~RWP~k-dvT$OQEj#uaM3}ST>Dh4E^wB|-LbOAN
zL@m_4aPI6JpuY$Ip);`L{~aS%4Fs)E?n&&q)|ql&?Ost><K20kIoXxyx^^Jl`;D$)
zMbWULYsl-WlKT?-u63oGzR}rN6!sOJJ+G@t_9S|8I(vHN8=YfC;aJf*@;W-%ndrQH
zB-R_7$<r1Te_ig6^+Bwmqf@ff@Vx43*NUPx-UZ}o@@mhDqAuQ(r!+}AL0>b(dLQV`
z$?qq=pKeMIr)x7apUmBuTblXe;+>24^oL@vKT?>U$>bXC6S-2UTBQk%Hr|=)Pw&rM
z02c9GaW~?Ge2VFsE;YPxcK&SI{g>a*Q^uqrVMxv7sJe9L^`6C^Y*Ws@El=susHx#=
z#&pf~`o;Q;`)@YpDf4}*jt9i1995t8-*0T=8{3x1Tw{BlGGPDZ&QTlEE!Vd%ZqJfA
z+g6}>W;cL1jRb9uoxnT7Q@-<&Aw}Et>Hk8B9T8O4K2c;=5!RXq@^!N3&sP+=vNc$!
zik*NwssKYuqC5<H2t&{VE&=ulw1QMn!g-4-!^M2BAD#F$PbK5;*R4T<Dx76G`U9ga
zM`MhY@{mLTOgcEM7tM;4&Oe@y^m(al2!>=7x0MnWBS$tSssesRH&Q~bh^r14U0tOQ
zI*<p2k4-51D2)+Sqc$`T$YjB6qf{A(N?A#j4rMn1Q*u2~O&Nu`B%cJ8^;Y6n;KpgN
zR0XRH`lY07hQCJQRC<@K<V*4tQ7xyfw7+2GN^7Poldn>4MG4tEw1*Usk1p+>3Zud*
z*-8>hP$?@DrNhOH3!{;=cZ7HsENN8F(VULcGdf1|6FHQ+V$N94h*?uOClR>eN9hmi
z6!5u`qbmhP;{==>9YflPk4a7;N<L5iQuP-=$59n^0iPjpKq8)$wdaoFG~a<r1G53j
zF**1*ePl$7to11zv4$KSj<7cn3bLX7xY^-=tMY`Gabch3XoV2Bqusg9fdgMhD^Bo0
zwG;qLZJ7G;|G|S@5l%q8?Ub=W(7d3Y@Or1gGmXFT+28;C5BDQIg(TFDL#!S8#i+ms
z&=5{QIgRWzB2!%OdFNObfwBN3T*hVtp0F<%a8E*B#m%rAQICAeeGw8)!Px*LT0G!S
zr`cCfJ4!cnw6jeBi>|I2Ag4ieamc3$+92y2hg<~sO6=coK1om>a{+IZ_&^yh^m1P;
zc|(Dm5#%$jF+q*lyJnEHMd=OnokQ}1;#>5D`sbWKdkxU8z<=mJ;b?*L(-LNUp^Ob8
zx1ma?;%sVvdUU=gM{SDrKIh6Fs;T(?AOA3KGN(r78#7J3sX43VtJ;@F_^N|(<pbK3
zd?WG3eR?BLZ@f=8^K^5jH%n%B!L`3;*>tCFWlL9%?oN;ot4whBEsd6=8et^x!TpK;
z)M#dNygx^8fg2;e6%q=So6%TD6Gv0t^y$poi|29}6*3B^6Yr)Op57Gee_*Ozu+Q7m
z-t?J_cku@~)3(^)BXD-Qgzjhk3&-Y<Wynnb4NZ2CckInocP^Wj`*PI5`&1uK_5F6w
zS6yFr<*1Xf-iKOUvL(@y0zaM8+8~``up}oE6X`vf-o^cynRMIdHDB28*zXR1b@t1%
z_Y6a^0T?(n^Vb{TR!bRE9jV#W#k4zh@nci!ecsZXRW6Y?HN2&rr`i+hRXJg{t*Qv4
zJwBeCOiZpAcBcn3p{y)@62R>6Qq#>d-xzko<q@Vkm>5h&GEMVQ(7CmJX>ggnGnAtb
zgNjV{g^lwYGq!B+jfSPId{g(b|7-KF13A-)*x*B*8N~)Gx>r^duVA+<sKf*2DH<=>
z4aof=$NRJ$OxugxGj^^DaAyiebfBtm(OLV;xd9{ea4Jp-MzR<NRC2OlBrDvp;PY&O
zGu)VpE|($K7)c5~v{8&4r_s@e5(P?=gZrWwB}0PQR5D6rHc<`_8A(p<ujFDu$};Ci
zu8X7LWb5K+VXO)+`sKQiW(O`<^Jh?Nz{!30u|ab9IEX?e{BaV61C?fr)>hIQx?M$f
zVEcQ->j{GW^M*o>Q843<aL_R}-O=tC3$kG5Lt$TFTtqBcTx@W$6&_+Q!AdzPY<scQ
z6^-X6Xf0V#_I*@E7S^d_KSVHt3NI><Rb^*UQOeBA#-`b;&?HdUg}7L_i$L0!4TaFg
zDzliPxzx=D(D}eOC3YS#Zoz-(KcE0(NfCNW@_6ESA)2SO@!^CD;&qK7X;0WuW-)c<
z7kfTAaO1#o?LRd9y5XK?Al6qh2==CoH|xIP<Lx__4)eCoxGcUW{#vRj{@PE6<6T#c
z*d9F8=#tiiHD!jFyfN07H&!PjiAZ`=+MP2xAQwy5CQl|#ru#Bv4%xXppw}d7KAcTP
z6VaTe0Z~|!?<d~>XwUTniwAN>C!)cY`DdpW-kpCpM>hkNmX6ORwx%gw;{Xbs9$i>c
zyHf6J2UZjt#PGd%wqfq*#|qd!JOcoJ`9wzLFTdi#$s{4WQU1xkf`zy(FP?M7I{e@Y
z@F($8ma;e~FfaW$;2g*iRYlcN3IbJ>IL8lsxKkm^!O3qG0_LceQF2-z8P#z**x{-n
z7AXKeKFu<22rK+h!Pi(PDW>3bXn(sr?vU5D%c&HD2J{(<39wrbE^@s1?&+k(yDQ4?
zi2D==1EgCZM{&^L8Wq%|E-}+bkGe{sjzGEuec_{kcncQPaMorg!=VuRKv}k#9pY}T
z7KIAJHx^G=y8W|%3%I|9{}4KFG2)@Ay678I!)Y@0dS)-UwT3$l_o#!h-h$Vx)YH<j
z)O&a9y_OTa0yY&~Lyu>gp3y|j4(#&Pck927<f=zvC(tdmHWgh}DvYYwz-kpiTVg|a
zmx1<h;()~3b;?;}p&t`)eA(*&IZdJ+m;_ibic{Y)37`CC;R}jDNe~Oa)Pn==o(%`X
zvjO;+cNqWRNRaz|VL<~~h)~#jahfe88{Wq8rXWYzQ<Mx4mj<16tQkQk>eMwJoMdhi
zSWHoyRQFVnnVt0Zu%7}lx|)Q33FWGsB+1_s^uH1Me<$i8qLP_nwO2M?-uRHJiL20c
zITKnwyfXY&eoHH)@~vC*dpqy$dL}0|uao5{r`AEq%3j1}Rj1ag{!m3|HaxRvWwO;;
zLPlM&UAC>(6Ag_|?ENHpaMes$Y8JN5Z(FtCYPD3Y!PQ!+YQ@zJQne0OZG@pJc`kA8
z517?cIU%E;TG2ooaQAyM!fJb>Ya-2gHGPG<%&p1+hHpQJW>pC=1UX=Xx)a^2YE+{L
zh|cJFdR2pJTEbMlil||msB~A(T|W0z549&lWE0tvI=ygi{@f}7U^es=y`H>5R*`jS
y<#l?IUL^p`p8o9IO+W$g?(A3GmmCIH+{{zd^t9bZTAp+h#^#)1^JN`g&i@BKzxXNu

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_365790.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_365790.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..366d08df2709eb9a1aea555e6a2e569227dc11d5
GIT binary patch
literal 10087
zcmc&)eQXogmY=a_?6EygVkdEM2!xQ34+w<t6&g|?<*PJJAbgZU!&;8V3C@R|j2$3h
z{A#K`)uz>p)Av>}Y^9p25~iTn@KlLZTB+InXW8x_>sv=J)+{R_y(g{sFFg2TcmLTv
z_m0Og!6AL!KlVzVxgY18d+ygczjMd`Vm2EoNWZ`K&82%~6!j-uP?I^6dHx#>MNLxz
zCD23E1?5d&ph;OXti8a{l!kKC14NR_th`A*|8gBJ2^v8QKSp2$-50E&7r6U|d)ifa
zj4Si>Yx*g{^c5}e{q%jaDhYHd$kTU$n;9s|Q(w43ebEZ_mKEx)`Rn_PLh;AUy-dgI
z`+`BJ5=z|EKuI2rO5LVDMzDR%Uf>Osuu&)jy7D}9YoNX&PrZEw`tlX%p+8}5ex5#F
zr~o|*LECjekxyIPTfX}BE7YsK<>7(3s)XK(glb{K$MgjY>?2Ed#;oIXL(Nk>+^(kw
z;rTR#9~^$r@MvIV{;hXU9O`hKK7Qedqw}Rw*Gr`inLl>w#MzT7rT+BEcaNWObUcL(
zPd#O@FpX^Vjtx8f0cXG4FB@?Fic=i%Kiz;^wKCl)(_J#%A+s*WNI--dz02qA^Yr^=
z?Vx*HHj8e*JKzZT920KQC+dMq#Hxx0{J=*>G{M8Q1|Dj{P53Z8F9-5zDu72t(g4<L
zSrX`bnfBnCRVX!CN_!3^9_F$nu~PB9OkctBRcLimNtSl4WRuoTuoM-nkk&{Q6CfkF
zPFg3~NZtAX9zID@xwL))Mlad2yp_^=;HjL@QPc#`1UC=~P=Y!vr%Ku&6=OL$`rw&d
zmIQi9cOqw_R3(-CEWYeG2w$~SDwPqvYb3i=^Rpz>sG}hgHc6DU5zHj@YmGqlY3!h>
z#9=woCR~f_Gqna>i+KoNtwbvnOMHSB&w*ql+||ptO)qiR<;+hWlPncWC4HJecGd>+
znCJV9I*wp{pim_h=p4!Uc8y-jj$h?JOhxI7eXx2BQiC#w%g0Vey!n-RVh8bfH%of_
zo`4-5+>+CK9`h~LN?Qc>zD_m%!NyhS>z2>4(wDS+c6F)-0-Ym$>nq$=vP-wE(yLb5
zCKagb^-5obYD@N{HmxF$0eM9#*K&E8U1L$(vr@M&*B&V0qzQUV8EnoYXQ_3Ev{h=J
z02?K6WL<Vj+oc^j<z3QFX%{)$O+?ymsXk{6R&_Tmy`{#1(xsA`%h{newQlLHjzrr1
z%X!s3Isrf@SP%QBMpDipF4szRQcdouBUE)!`ZEthN%g<H*WjLCXvbQ9p&i>RX{45A
zR)|-3gtT{=EitPt!8cyvQqJUZj_mmewn}A!X0RSyTCRV|^=z31l-`i`NUckdkEX_R
zt$O*=I;**S91X@U5sU*R!rr7r*tk>!Ewe&ke8l}9Dj)c7X4vT;lv!Wkl3NrprhSSn
zS_3Vv#jgTc6Bv?>BciWgbPhW_g3P!C&t+LV?D5Jvr|9(dyJZ&pZojPW8}c~=J9o&e
zQq4e7khOv@07873=H@*z>ks%uw`_C<e8V1>!zl<2`()OM@qx_t;+Kdqk8Je2oI`Fu
zsW*@=NSg)PM0`%fVoYW52SktHb~uNZvV+-dZ%)>mt#vKYy1a5>Mna~${^b>3xgbNK
zDAB*H?3IoEqHk=(;r9T+N)SfYj==1(@Nj@m7%1T^D57S)a*>+#cpXHd%qfC_(bVS=
z{ecV*ztkT{ATl#AudMg=_4)B^D4AXuwF375@X0#TI0!3;r_wL$$aDi1bGlqI4fTT#
zOo7|UwxFFd-7B;Gu<%!9oiagUHJ*0Xf63DqkhuvMHpzjg%g!Oc%=9`YM)0$5M5bLC
zEnvbGbzr)61PS`d{_^hwSsQ+N`tOrXSA622f5ho>H(heN2AzRRKJQilquxN1UvxDE
z+`}VHP-^mc1G`{Mf#I>CZ6o6jsB*x*3HZDYmk)N&&ON(Z-q;Q;vRNT=47x?Hdq}(p
z3gRX8KLW@ZqF(HxOy<e0k*zU0Wh@UJddwG0c1Aj5RVltAbmVc7by`2AkI}KVR8f8C
z`0{ePtUB&NWlc$@Bwc7t+G<f@ZRqW^wLI2?tPP=#$Hlhjczho!+cv|eir);qo94@6
zJL45-?N-EZ3mr+Di;~6F$XuP^5x)z{1;x=JRIu^uQ+LkaKA#w!X-sW8fC>(Tj=iR(
zs3LX+71f50r_I*rd1PMywe^nuwms3D@T98tBJ<wRQQXph%NZ|;^&?wt!j5b^X5O1U
z{Et<$#~wK5#?kJR$aWH$yA{gI3gy&?i7HgKB{7a{duLnbcKv9XYeD-u9(mBdbI5iM
zncoi`eQe|>>m&8icjJx8;->G!hZ7Gb=8bQ`JVKAnzw4dupX!e}<Mxzo%YwNvOs6fN
z;?%mhEx~-_Oz3Y{BFpx$E^W2ns*0V7)gkM~csH`vCicv<-)%*fJz*VQkYkZ!(WAiQ
zpXYam>7|<5Z!C$!iL%>GGwo>O?%BGznjh)8I@J2kqi)pNg{n>@&%Hm-pNDR(Yi?O$
zhht?^P4NrJ+7xCVTZ*U4rpjXFad*OpYTrcmH|O+^m>->w^yuKp<mp~?uou~TQx+Gf
zkfF5$tryj{A$!|g*`tylM<11;_U`1__fY$L$qSdz!Ar<~DP{45+1&oxk#$qTf-IY%
zx@2wa@K;r_W2mGiK8i}}6YZ#YYnV%0i=$&xo8ww!sm8NW7Tb%g)p0*&V$wynSjm(*
zZbOB2P~uFViIbNjm!r;UVM_R7$Cs@)TT`&6%(wcx`tLLkjSq~e`hBUwHpI1swP~&(
z+7R;~YaQb1Kr|HJh|^R1<L8le8{)Rz&@EO{1zQ(4PzHWd7tw+2iO58XD-X55X2-3(
zOJUW|-Rh1rv2&<&Q^J5sn~}MB=9se8(5}O<*LJ~1I|&<&FaEqe8i*c4d_`;&@f+gj
z5@-I<oH&Oz?VhF4rZ<qOHFP+wFNjusBt7PglU#(0+G3V?$sf7eKSS9ZF-QAgZwY_o
zwmgReP092Xu@&Af>?GBMeI<!4H^Xz9lBj`fbg7b1lp1OaH1_6x%{$abG*ITs$q@HI
zT~HI$0>+>Tf+YSw!=VW>z=a+2vLt9B!qH}tI<*uR4&;gGBnn>?<zR0%hdy6~vz%Th
z=_D2-Qoy$mYzOrcYoa8QAHaZMSyD$okd1tn2;kC+Q*q+}cGSyK0M9Q;19_0Hidusl
zM24h)hzEiC|49pjWLRYkd9G%%V*qY~9qC_dRdh)rS}lol4X|c#VVJK?FigPSn*gV?
z!rsuTGaNKZ`T@9>T%H6*)nWj5wk)aZ7c@!S|ACvAjFL&>A#!I<Qy6RFK$!r}r~d<q
zpw2UZFSUXPod2NPJp!42MVD;{#dVk(@2&>3*b6TVD4Zj1nYrw7Uy)frh^|XA<HRr%
zp3bWPDt%*K08p+W=kSOK=MGrFsbjb~2JgMH-ak6#c25AXgd3)Sr+>^h<_F;p+z~$K
zvZlk4gBzJEMD`UTn;;vR!T3(5M`a!0i9xp@p2ED<@bF_zUxF!O4;E=29dklo6K)5_
z7vg28>%`>!U^PNi+Qd)pj_m%lCF;D<mSoDpZE4<&z0>t0p|`-xn9NaQ<Uq{%lc_Sv
zR3=T8Y0e0Slrvz{8Wy9ivC$M)6>5KMDw=GKv__q=?gTS$+8R3iYE9Z~i5`x85IcnU
zN(>CF;j_`Rk&6p_72*M$R4?!ih;K+#B~GRI?F;-)#P9s>$it2Y9Vz}G*iC~md^Tc_
zo<Rot0=EHi8&cfH1+E@(^$APjtrXX^!0kZXj_-Cq-1lH#iaVgF$wZjX&Q5+1`5?vF
zu?Hxe(nhPI+RwXh(NRNW2&^p~XX4Fq<}2qnmbmfeaAFj#-;N5J7tAfl+%l_~ZBLo^
z6BIFdF>*21oHDOlFxMk<eagHUS6e1~B0aIHPaO;9I%KX(nHykiCQEcrY<IjSX{t>!
zwc_94g`ls>`q3+HPyeL=Sv6TVO2E3T6WxI^(d)_@9-zhnGcocXfqDMK@QHCXL%*7d
zzhMaKBzi>$pub@R6RQ_!96aW@3^uegkTw4Uxf+6kI7JK*W1j|`L>{vr$X+q!`?7Ff
zlXV}g*CMg`OsJq$%>+$_4Pod>U_R!8+|ren#1UgffjeTsg=w)qFcK=CSrk}R+6wKu
zY&*RQfByC*es&f9{OwEpnpODow=eN)SK-g!zQoVm!;vc_nvz&Bp875lp5N8TI>CL}
z<8q65+C?1ayK><N-XWOtIllb)Tg_@$-w^;M0*ytf4kPEHDGykQz)lm$HLOaH_bb#9
zm(`~MO_{Eo_!h7N{s5p;;wW(gE^1|_^T?TYF&m`&@j=@V3MuxIYXj@uD>(O0Y{`UK
zg8L;C>hSN_);8pWz~8?gG79k!i14?-<3B^xW3FJ*6fs2s3&y%2+(>ba_b-2Y?e4YN
z=2>BGKiYpP)pQzhr_&rCJ|8K3#%k?4Vj`CALK+OR+2e<}PxTU_0J6nCc*rcoi-B=5
zh$|XMMW1JA$U(wD2!P2|LxV}Yg4?g+2XPVOI7fVp&Nmhq84D;^6Pk`IGSd&Y6FJj?
zCoStp4jxpd#lGTXh!LR2F3fL*o$y~FYSBo64>=GyFmI|zG8IWv1@<y6k(TR+L+zna
zfXO%>RUHf;)kM3ebT{@T8C!T?T5k^h>aoQ(y>@CX*k()Yy+r%BZ{L0U?~nY@`F-cS
z<(-J`2}~~^;iISLIr|HZme++2zu+j=8m&Q08F;2}OY|s?3LrEvgqy=o?5r@-wtQ-e
zc2B=Q^?uCx+Yi!Q;bcLiAPU~g9&7n>|IPi0s?^#>;3Fv9nc~*OYQNlib8CW5m2duQ
ztF14JjjV3bM)B5Ar(*p%xW-UCHg?votYw4(J~LTcznYy7V!)s0WDpq71X+nuY<N)j
zdb^DQHGD+K>XFZWLr;0Yd5+!I<CBN4kim0cu*j-lu}{+mgMwBaxmH$b^smz7Xqo3T
z2C?M%bjU(@iF{T8I8IBP0%Da9GC>1)gO_WJk}+>UU=SdjP<@e*J8$_kVqtz^{#Tfr
ztX^1`%x5EFo5-aszH%pXkxviMF3-9O47QGfLA7_PREbqTJrRhVFOXSU+t&m#@IeaZ
zSGhI^xNTB^GIse58pXyFLqo7IR!_mu7;6&v441H^-H92Dq8Ha^O%=hVA~uZ*(MFte
z;|IpZVhubRc<~0#XJIU{QQ{}K4r{GgDY&@909rPvca2wNt=}~y(-Y!3AoAmN%33VQ
zC??A^=EX-&!M#x+`4y%;0oxUDZ(-R&;YL)rF;!Rt*IRtaWLKmsW0E*yxI3Z)Ol!7c
z;25ilb;oR9kKMU;``YZ@9}awfVBXvT$j`PuUOeRu9R(Y+E9?yK`rHz3xqc#DRvB-e
z3MRD3wq<$S<D$}Oeu|HE$FJV`@b-uEMJ=<fsOSh>a~X@G_FL`I3S?X#I+QjRMh&-`
zqdYRM1ITJLP1Z(gqt<9QxzLM^e!crn+wHa)dZzgSGyDDzj_)1w)t!%opU#|3p8Md@
zFsklBl|9IKG3gYLL0I4h5I2w<99kF@(V&?02hiYH^2&IMoA~LPv`A4O((M{}9n_Fl
zrX)e-Gm0|2r2!3i>*Vps@!z?pho^>9Jih1Q>l25NsR>ZIsW8+*ESw9QFg4-pNMh1n
zKnDJJLI<_4ckB>N(*W*rziMW;uPT(H?l0XqFssO;CHOM?SIEn`kpLj6UHX3719}8?
zL4A-58Uk>Dl_W73E=wHTfn?xu&?vBy(L-krk*-U`1AuQ4V}etZAPYx@_+L}N4Y%Yj
zr{C>pZeTM$9X>}0UgFM4ghqTSoDG6eFrHEl1LhY`;KxaLkl@nME9-k5N^r=-y*7l0
zju9U|EVM&5XYP*`k1y-tpA2I|0sji;r9@H8CyH)YfSekDI^y3!PrrqqA0vnm^~6#V
zdgsranIIh4k#LK-=eyE}>mIC|$065iT55OBw9jpxukA!kb?69q>38E*FL<hSTf#Y0
zI;)?ncr=kJxe)4H<SBzK8eC+VLS5+CViCm`hq}lXgBiqg3Wf>4x*D`%5xk#L@D#tm
z4aH<O#SbAb7b;`lHU!^)#^APH=G2_H9=CJOv4Afy=5@=uL*(xsvUb1&CI&E<Kj6MP
zB4z;98MoK(6J;$-DOnoXbQFI>%2XSUdox+GWMULVlPQx;%49qGeM7=sO2KzMq~o?>
zpD;G$-Y?#TB3L8Je-oaITAHT+MDhPdng5-tSkzG(OUU*~<@L%ZTxnQ`QAxUD{fu_*
zRPy|VWdEgST1}bpiLET&{DRdOYJuKh`x#^gy;=8{BFeBPU0fb*cu{K7XcpH{8t#+w
z>*b4@J#^z@2~}J=-8j{_SgMqon!g>oJEWF6=uY}y8~-`eYEx;;Fs+T+-1u$9-HN~9
z(sM1P;h)>F{BkHh6X`;_E_!ylXR2qBf^5S79KRMfQ`L3P^cA!<t>+i?Ymk1;q868`
z>+c-6eSqYj@RkLB9pcw5ve5FRt`Qqgl7~@SN)|EqB1h>=3#<*Xw&w;YKikjKMX^m^
zHr{Mpq#!%PKI9+pBs+KZpL+fQlz`f#qgQzkiwnc!Xn6cNu6@3_oGyOWMio}43Tm#K
H$kP2U;W2*N

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_41463.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_41463.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..baedae31197c86b32cda6b0b7521d431f850b948
GIT binary patch
literal 17037
zcmch8d2Ab3nr9VRJc~CeQkP{>mn~a|<x9TZv?a@@5}%1>cL<6_(YmD~CD}@`L(gUq
zG6_ahXSQ8-dJsC(n5NqXqBM55<;DO}2ZL=7X0Xi)wUM?)3kc`{i~O;GGBz;BAA|Yc
zD_)W*%T6#;h9BScz2ke|d++;x@6+Gu^;!bHU;LL}-KcFKh(Dr4<};=vPrp_W#2tbm
z7;=E<l77i95~pQ@@-B)bWQ33G!!2cqrC&zI$Qg=JFv_1(jEYe_Qa_YSCF@d9K%q%f
zXc_HGP{^Q{SEZm{k%IajeP~{}j~_BB`X#wb6<!a&rb~&}#ISk=QOc+E6O8UtlF>gh
zWY!PX+w^=*4WS{J?Tpb!^;w=TWlZbjo7c&=tdnmooZq8mZ0{-_raR93c4?UgrpQP1
z*$a%w4*A6e@*V5cFJ7m9iBHdz7N+UZF=g*6x(w?|yar^e{O2-;eko~3lKAqqHL%(*
zUmMBBbG7|cmvLRmFfyB%3cqY)$zax7<8@@BhhjFrOJ&wD^V?-&DuK&Y1y;<tPJUJ4
z{2nD!{VvsI0okZ|m+Z1KjaWtswOotW)>gQkSIO;>m%zZG=Q@ywB4$frS_a8pp>b?o
zCtn(0K^oW*^)O32)5L6pSvp`H9a&x$-y-XqzeTL<{5A~Xw*(2nk5EhvK|Lkvj-7q&
z_!;-bQ(f)ubE{IFt5Rn~UB`vjF2A0x`7Ju*>t&*LXl&3O2zva!fT%(72@g9G__h-D
zK%qc}>d8g&oJe+x<e3u?S9ynrdV2i<QQq&nB^t&8KDT#_@wol0XXFN}0s<Bdj@3XQ
zsxH2M_S7Z!85UhV-u!)x>Y!0P6_x1j3c}2!uMhRP=3~f5vWMv!q2dkd%Jb@$<kdwJ
zTJv!V&iXLjU#N70x=PNLty{K1T@_c9ty|7HxUxyOp+lRvVs6tU^cSk&DmVwu+Z;qJ
z!yi}5ZJq>1agHo)CAS%9Dkp(QlTat*#4SJy@=!ZfoRhPncJju9IJ@R!$lN?}JJnnj
zXL~8S?3^)O4OhYyy%b$`{+O<oBe-hNM~FX_F+`6H?J`b{+CimUEh<4}=@Lz*Bvi+d
zQfZEkq0r1ZEvm!Stf8bcl(^R|d0Z)=`*2py)*}mMdDW-OMzfJeitJi!4QBK$(6jPd
zE+kj5{+u0+B}1M0Z6jjjk59qM)pPX{C#8B^EgtbUZX0L8E4v+Hs(!S_4S9VPxY4;f
zu3<G7808~XMhgfva@!={X88Vc{0lX0&@0I`;kCnk=dBKz*LO3weRbcQq2Q_+GpiQb
zu|cnLZb!jh^Jm<$K^xR_qcUas2YJHMwVI!tIa|JVw)y?;#MH1iS5q@s&O^Jno!qWT
zI20MpB%EYi3u-g88&-!xyL&aC(lmRxW^PZ8CbXB^E75Vg(K!)n<+kR{wSYdyHFB*P
z$(z&z#a57(v}AJ9E<?F>G4jK+6v1r`?fahR$^P$oo*dxza|$fw2e|{B62}g4GH(BB
zesH?%3LIF?T~41V2_5DRuAw@#x-Q~-=m=+L<o#RWg37-eY}pN;jc|v#ecX{p+RRQO
ziCg)nYyn-h5Jf%R$-*Wk>PeCE-0Tf}i*7L%7MyrMiV7xpYsB~eGF?89iPWGc&@U>6
zgExFEi;kObQSg9dH^Wc8PLu@)MC}MW443VoyO$9uFVj0N$_IOgM5TxI4EcScV$#PB
z2SioRz_2H{Yp1A?vMES1qMR8Hii$vRnDvQTPjGm!*X#B$O#M-jbcy6KkvuLc176R7
zFTete2-b`OBv`B!0#OqPvb~JY?HSBP`?JyRyy#Fi*PE;B9TJV{7Nkzx{<Rso8h9FR
z{|?cRCXq6rVLv-OHWKKC^lEK`b)bQwgI<)60CN-&xF;pW21Q{YNXJ1@XeATv7fqRH
z?+|D)(6*??KZwC}PcIt?VwyowCuO6qp)uTi`UluQ+|v_)T<JHH?uTV@j|AC(sO*-0
zX^+=CHaIo_%x6Us*1F$40?VcFLvJ@lC0c)XzesvSHEPfoba#uYZnyWw*igTy!(4Mq
z1;AjmQ0{ThfT)}t!N01&jozLh%ud-mH13`p5z`sa&4jymC@4}B?w%2m^olAxTv(fQ
zWJpxuu2GH@fkwP|$XNCQM}e)CKkWP0*P17W+5W(Y$Lnjp;qmr+f;WbT8bSLU3N{B=
zZ*$N$IMNKMW*F*j_n;>Td}<oG<%TRb2wre_$n6~l@!Q?9d+#nN5cN_WcfXGv@(r*)
z7$Xwa!2bu$GE6+%M$r1H#%LpdeqOsde0)h~m^v3d$B)kIoZ<FwOqM&UX%$cMhf=1k
z;ZsW+q!%64@m|5voTO}vMoZFOCm8F(Cl@WH{B^-nA3n2Wwa0G74+@T^8C}YHIDB?d
z=iqn6%Z0K=LDv*+U(}nD)@ngtozMxo-Qo6Sy(M;C&^v!|?3btRpGtUU%2PE*1pSfl
ziN)_xvaC16?Dt51H?NxB9N#aP8w7nrVtj`At!u{r;GMY=q4~6+KaCnU#P;5E@|XB6
z(?{bT!MY`}U$E?+8J}gobj|udf9FYw(0W0zToCjZ!zaG6*zRnd-pZd%G$hMf|C;?`
z^6})n<uuF|#@O=b-FN)ce%=!=pHT_U)|7qUf_{I5Tr`<uX9ZJbyj3u5OI#65yCRB3
zvz^~Bm}(-5Wr&%lOCn0N939b)*onA3LH){;P~G1=E1%aLijd2;lJp2WVT3j`LhExQ
zv|fm)mtc5Xrnm4;{>I&g#FbyWW`Z*v58QLEdCQ52YS~eK?|hu%-<bYM!YDXeXY1x{
zUyjZ>9ydREO*n8(a9oS%mTdMr9n&5BiTHJ)yk%DT+tIn2*@?%-CxLm}#fat`v-OT+
z+QApai#{Dq)Wj$5SIjgEPM1*Pn!EC3^mo^i7p{Eu=GEkdt3q2>^2hx`Tfb1!pJZ=-
zb!&13ZX41igP%$G`3}UAJcd%IW#?qiKu|kn5#^$_gm+CJ;Deu@=O+ZqmV{HVY>%i=
z_8Wq=CLxDp;+A0E7f~)-i}{x6{r5a^8}An^bqTXz*#=e3#e9cgu8s$Q*}!L05w8(U
z&iDzGq?XmzKWFcZPmjYQ**<zlP}fE1MYSQ;5O)Zct$5`H_3rnTD~*KVz{(CnV+*^M
z4c6FzV5s`Vg<oF1e>E{W(~zn?Dj1H2I~HG1QpA(depDqB0XcKrGxKe{Lohqzrv!7O
zpl_T}%~HSh%&LSPKbqSw>^Ljv&w@zOmY=r7m{_Yom+}5M^D9@}FH|%MbW^x(S!IYh
z|AbpoYp2vvbqqu&Zu?qY_YI`=QGKij=EZ!i-u@JJJt2}eMb+qpuh)Mg$nHcL%2DYu
z)aDLuQOWv(W9*O@-NBg;UFO&r{d>5p-_yQF-yt}nFKuvUDxu$uX&z9W1|uMo`V*2P
zH>@qot4$O#a<4<*?`uO!XbWi!Yd%yOQoT=eDn^b~M>VJ9)JTyD=wU1rr~a5=6rA#7
z;xDqG42(+=ZVrN?DSdtUb57?)wNbi92D4RXYUO?*w}9F7NSRTILW&_Xr|1I}a_z^c
zGUhr-M6?m;fl<G!4ry{G6sN&PAOQxR0u(+u8VAgX=tC;UnlIPdI^~*7Z@{}3(-$t!
z(JMBfFI=9Zmu)~_xI9NM-+;bwd5)fXh!i#WNP<&bB<i)DlQvi7;8-A7+3l+Y=qA|f
z9~&MEOxlhW$i<53q`v*;h|e4JF_mX34+HklQ0X5IR)Th_WPIbjULRWy?PIOho4-Yn
zGKM;T`Y8neRkjhP6D2v=LP!WQ7D}EiQ(yx`K}Z>l9AxUFZIBag5REL70*$6W^tzF$
zpNsX#fHjKFJpB=?j-@~Zpqf(BHP~86f^O}(Da!r6AV6Q#x%Nx0oK74-M@D5h%rdB=
z`p|%9u$%E5ncSY%N*Lehm<JdR+9FnH0y~=y4Ge?Q7B~VCsq!F@2HGL`=P<FPHcZh`
zI_8Q6`A)&HJ*94VH2&G!58j?_nPujV2uCiYnlB3Ki%V)c(l&K6dNOu3PNsBKaaT%R
z_nkssqGWrZB^FOZBkFqtpe|(=9JKx$o)It)K=1V45EY<m1#huKs6JXwQPI;oFyO{2
z6qo>5&9B$7epG$~1?W6wdr{B_0jRlS!I80`WERNIOo-YuZeLn#M9L3VLLQ$Gu98z7
zfAk}XVI}LbiG2qMy5WDI4Fv38!o(u2n>rdjI!~7;solwn-6;s^a=14Z=t_aEoTsaj
z)PZEpffR&v6{_7DZN1$Vc7;b5bylSG-EI#b1I@&2jd`Z+;nPqhrhWftl5+8biPMQg
zp#FGfFDA=fDasW&x~S5Jf3jq@-zl3egA2yYUrD$=JNe+`tm})8#~t(Lwy1I$)=C%E
z#m;|dd?u6Yl;O5#YC>U&)d-YhQLTxz#!jGnR*B**5fA*}`^)?R9Xo&L&FMFJ&qvo5
z)y649)DRm@sZ03QPmbI@l5nQV8h{SpZJw06n6LY!@or;+OqFhX)ojZ%t5%_0u@gE=
z_#76DdKm^~C3qI?RBYLK^AAk4gYZRYfpDW83>RQ}|A)*k-n&c=y|r*=4&yy}6a^48
zKrD@!eTxvEkd?D=7^m5g&a{fo##z^(0#rY`N{cw#YIGotL)bAs0`m$vo}*M^WUhE^
zK3vGqBBw&<(Q~b4QO;04-caBo286T(V_ObDyQ%CITMCFTMrxjG86%*WH~DCEp_WO&
zpMi&*1709=Etf;f7%zpE@eJ1RBa69&Hs$fWQ2R1KwWap+M_vJZk{7_XlvsV)jC+OF
zR`<$CrIi>9M`)P}qc%>!%PTPwCZ!SXU4^moa@<;V-UtgRGV--+mcxyn<15A}@qDT|
zNA7hS;Xm~n3C+PrEWRw+3Ya*%2?YqLVVx+bf}mc(R-<?g3bvqNI|>>hsILLVbOPDd
z2yBsl!GK3;RnG`6z~`z2yc`CKESNHygIGp~L~RyK@#n>J`I95L{K=6VB-4{?rDrI2
zCLk=LdjPP4A@swZLE}A*f(vK}5;QS{(Ezv*SpXMc5(q{R)eylK8{iGzbQVO?SuizR
zO9c_Q5E=FwYV#^;Q#N`7{!fBpF^ceu0Ag0|qF6sBT_EPX3pR}a+=B-G6#fVP7wlj_
z04fQ+5!?LEl&(D7o<RVl)c3Q%tv`kPIo1(%^P_^k5*gIiSlc~kehzJporoR<<3(%w
zsX5jbb3~i@tAe&Je0<qh^ivOSi}|DP#GQh%I(|zq?3md*Tk|D3yXEtvb6163or0k=
z+_7XdPfbK8V&id@;MkI2W}WlKL*bLl26ODRV5rEM%rgfB=V8HcxByA@yzxjLNnOHq
ze|sYM>+^{TFxF?c3C=db&<1n{)098z2U}`Fu-7Fn&6?*82g4mOR50l#@3rs@-zpfY
z!4fxY0RvCU=68Q;&d*-fT4H`dyD4rJG&SL4i&}H+4MAHTmkXNe@UdlsDYi4}=ZgXF
z2%lJ@l<%FqeKPV!Y+SNtr{77G2#%eCe&@`U*|sm8vmKwi=WYpmUKjMQCojC2bbG(1
z7<`3^B!<H<@+IoJ-N?KH{0!8qRrVaZ-0(Ga55(X-&3jsG&q3ze4_j5r_qCjoA<;qd
zz9xw1@Yh%1T8e6-TCkSn90iYz>6#%`L=%BrMh+H^I`278owaaeoC;Bbr9<?=p|<t|
z#T3SgzIDnK*>Z9N`oiTodf5i_h0AmFstxE1muKl8rk~KjI#GcNuI!W!QKSX0vL(<h
zgKY_<d;VwG64)Y;cjgX5P?koZZ)^nA%h>>mXLY7knm>zP5GS2^hY`~DpI7z&2UH6*
zK~PxLFQEPB>GYsrq!oJwJC5QLD7c9Nbmp<>zN)9$k5T;RDEJE$WYv2X-y+I0Zoppq
zMXG1S-Oc_4)yPeWhGh1{&FJXHHM3$rg<8Lc|AAQu{slC1lNq6?w@-ynL|jPYHAl5!
z*Ai`-Iv70&*lG)$U_CSK^Yj7GkaLQ%J;n%BnWQM6jn_z8a__5Y$+iV`nV>G?!TPC)
z>lP|^36;BMT&c>vi)x)@M}1)6sZZ#;blml^;hA0q+OUbxnZjrAQL^g5Ksp0HFwVk8
zd}Z)wT{tJC45?lK=KvrA08LZQhAjlp04Sn)MSv!EG%12va0Y-Dba1@_(8Ey=)7oB0
zn>WS+{%4@O!r}Hvo;eap(CR{v16!QxoGd%%0ekXhWg#4bMOz;p$K+s7)~neuNUfFc
zoDd`76J>*gAm|rS#Wm87WSsp43Xn-7i8hB~78KlvAh1fvD=RlJL|fRu0;0b`gdae#
z+73OKtT>pW4q`iWmA$D)sCL@kRB6L+FBz;;{n38Dh4=7)+J092pm^5&h2ybf-r$PJ
zm*`R`@yEHD^S^oX^EYQlznFMD@kEoNFNE8cC=I?S&&Mdf`hQaui?lJ^wn!VorzJxl
zP1uW0hRl~0V{{8`B*uN&n=V71!#6`RPFCpt!}p~;M1dfYShXiH0*TPje0&p?!ni_!
z>=goK;2tDFxH9)A>Z{PL2+&Q={X&9@03DU}p+#KtA(-d6x++e^DUp!?Mg`D>05PSJ
z+X;$mavP(skU(b<wSssY$tW{M=Bk!VYla2M4f>Hu;{g*7>Sk_v2DP8&P9Hj<*L=aO
zqe@?ahwDr$uxYcKzmRJsS_P!@fQbcb#Zh^!<~wSo`-X#~bj>gz3Fc8+OA67!O__37
z+q6E@M*MgbxUJ)~86zCI`EWYP(XJ1@YOnborqdyPt~~$)^nK1X6(N}eAOImw^9y?1
z3q2Y*J!jwyFgK`IN`#CI88UH3C@q6hGiL%f44~l5ebvvmn;8Sh4a{Q__EO07;U;j9
zFmW_)6Y)#eBRd47AMT@w4+Bs}zvu<vg?r7ysrzc59|a@NaIp{Bk83`V5qU-iU)Z{u
z)BFdvp1+T_t{EaEIn9fu3fwEw=U2#@Tklo!(}LtDuPm!e!dik%glwFKv!T^M+V;k)
z2~uD}j$hgJtA_R41?y-1AzWVPlmnM~w6}87S+EZ|L+5c}qdl8$6CBrar@*W1*YrLK
z6~T@$ti#vKh_88N={_^^2%JBLRs~wH=W69%X`s9w${n0tS{vX3oHO9?2rKlm>jYqx
z<e&uOorF^^WdCqGtP+Cfa%<NHYxf4^78T^{%kB^>?7ttj!(az<)*d;iJ30v<nuMp5
z%%cl<==279y9a!g-M1?7LnQWHL8s{@@WGWcz2I}v@AHj7M8c1d*7ZOpJ+ol#2SZD6
za1kuJVd{%SGAL?u*gn>nL~6X(H^J7ST5#q{76N$x437<gD~uQ38%Dr=Xjr7cI@yQ4
zdqf39ckPs{gl#~AoQ6EXpl?W|&=5sAlmnzQI_C31N)rT6q5wFnfa?%`J#Y{7_WSCK
zrAGp!i-_bKqT-C3^-N%uOH@j;1+Nq2pada2r6?rZokEtos7b%px`Uz;StdU4Q1T8B
zAa51)BS$VV6at1sIdXF$$ECN3UeuSI9i9Nkm%zwCZ%~wjR}K3bWCzez$eJ;0B9gkN
zU-c@({v8nf0a1>Dq=AYDNWDBN|3I;zE*8|qDRpVswP-XUFy{8jaC@X>kv7Hl3v_v$
z{EBuasrF=bdkR9@iQG1N1^s4#grE&&R2dluhY)8<T>~w^lf<6ro*1|zME0cUS^!h%
ztw@(EoUI4cD0+=QCg>`_aYSc|?1}A(9tMR_va4dj6kWbRR|#}gyd~b9qU*zL-<XQ-
z(9`tK+dnyT_e_FJv_H_yv<X}HrONli^HF!o<XSMb38uEcx%~UC-*u%-uZK^4qqj_5
zgKp};U!=5Q#w?WVoN@j2<u9&1zLq?HVd4B$;r!KkeHQ>WMqBLspWTee7fs-p0X`LS
zz8-uz7EBF-sUc-*iYS)AIl;`ge{%Zn>G<f!=MpVnTN@+C7a`ZmUyPgYUIy2fNZX>t
z8ae(CMI|wE(NW5Krf<ewzihwX{+AsI@BMRvedn}%MNZgDm#b<cCt|yJa(XYnD|YZJ
z-RAFT!q&8+AWX$z!5NFDZbWZ<(6?Zy23RU(s10{4>&#h{Z$Vcl=<4F5@Rp)$SkSc!
zy4I9#Kd_NDP92IK;>iz=F3>dsT@ybK?<(}R1$vJ_!<w`L5A~J>{U$-biDw?wezyI=
z_Idr@yxF5k+JAN!=4G+R0{rpV&FQ8EOO0TuNr5|tRj@Qb(dH^Vc6n^ySGw}=6okzQ
zbAoZJ34<-&IJ_vO^wkUcCPCkn((hQ%?-BHSW_o5lb1jd1<~%9=$pt;Q-&{yuyp+6r
zC8d7@#*keqXZ-yA8ouJu7<w3-Yx(`Y-|d^nP83=iJe**muKZaDtO~pyuDiCM9Yn(g
zwl5Wdo$<3bf%PUUPr;%9pm)DE;k;kZza<nmEEMk$ig%=ncg|cCiub`#oR58i0||_@
zC>6`AC#E56o6*EJt?2S6MyB*t3wq?~k<vHAMu2sBE&3Yo;yo!{<$`Xzpxd6(HG=aK
zZHcw>dtuikDW`<&8KeWiE%|Rq{)gVQatYg$AV3Y1Z1g&~QeOz@QDAsb5}*eLLqY2t
z+vWMK<1XNu$pi2Tx<n{B1z6*1PL&4$YJy-=NFSH4p17esExcO8KTvuBB19?*D9X9o
z`HJ!hDAR$0sl$p)Rt?CsoM)Wrb1mdlV7PQam6a4<$wdUemr(fq#F*!JVa#0Pa5=*j
zj<03|x|-1lu}WJD*Xl|5?}4jT$>FylP@4+6PGnT&LS_mlhxewOp=1Wr4H@QZzE^0$
z0wcEIS0C(=4R3<h7qtl2u__HP{t7zHd!PXU0?>g?pdYP-H{?(TjI1GDmPL0W``;me
z*Ky=c%c8N0X4W_2^90eGzK<R7dB%P9HumpPRs2SdDKQigM|l`~z$ja`2T?sXBndnF
zC2CM1d3Tb%?EgebvQMPCdxHV#uXEB@s6le}geP{-5Chkw9wXn`Bset%#s-1`WDc&m
z^l(zT`Dm$M?2W+wAE^3o@IPP$8wUY-6$_>sIMvrcd5ik81$~vEuR^=oGIch37F;Kd
zwyC$HZ^O18<@Y9vX2$VDL*6Y>ac?wU&5sMFI=C9l_SpE(HUT<lalnzj^-jZd!$(c|
z2U2laoQ%8fEAAQ+)q<ljMlEgMF=KmpFs6n(<^0_uxIaqb$N7q{Ok3eVwO2r3*_^oz
zEY?`>bOpTV7nPxR^^dw1iduxCmYMoFbF!!<RdhVuxo9gvK7JpaTCg<>w&oel>}b-~
zoU*yX=avn2ev@FROTbyY4`xW4r}jnneQ+R26-gjrT3ZG_<sCrJAOU}FONQim&yGl@
z)_eeqk?<~%|0gB|j+`897NRz24<Ni(YEO~(8lm9i@c5e^<#iYb0w+VrCo7A+a1?BJ
z6&!BzhoG;cFQf&ZGHovzqB&Z^>k&i1?HvB%D-GRA{vdSF2X4|{5BxP)3p{<IJ%l~a
z8E`Ddd#7bD*0iu|2RN3XgCGY!<2G`b9#%{Nq0R!?BIy?OX%Aq@@kCUmB|d<xpnQ>+
zMBOHhXP9NdlPTkV!~PNKmVvkjZb2kWESqiN)8DA|7%e`}li-TF_rDeWX4B`J=G8~T
zt{0Tl0n$9TZNBcDKvjcM*cv+<cRte*MNQzxTQsYhD}OSXvUP>e!R@HA$3iO#%BT!?
zAo$rD?!=M>?+eHR!0#UrM{MncBMJS&a|42;z9m4}XTL!iB@*0^9wbDg#D}H<@b(`A
z-)T{uiQxxlQF$EyeV%9l`vCo&UfPdZRC~sP!@;p3Q0x0ZW7a@%AP5Hta0oR^pFk(v
zCErj0{L(e2hSE`d{NY6tjhP11Zvyz?K~zd4_+bFUrQl&SHZtIoRvR5MnCl`ft(V(B
zJit64B>a*=9jgxw4l`o|z9Z~YNW$U}fhpj^iku|LKN7lsAoTy2C|^;6b4~cfd*^PS
zi|?A1Ke>?fbPE=5a%40a`pG=?&LU+_mmYgz>5FN1&02my%P*#Vap{X^^gQi~Rcn!j
z4J*Zj%pA7AxB2$wMO~?=c7VqHOhw6LD_TOPey{X)=}IZFsbbMt^<CLXl5AM95Y{4e
z0Iyha(w0dU;iNs2bl_w$0WZVXqt{nTaI!RA`j5D&r*cB3drG6ebg1~dOR`eZ5-(bC
z?i8FmR|rVVUjD-U*o~vfE7umT_=PKeDK$F&PaqePS2X&;xhn+mn(RV0-X|NDL9IU7
z+sJns{X9jDt{lio!p@n1U^)1N1TA@<dLt(T>*uqA<-pu%^3vsb>Pmk7{QMP-!YT_J
zR}6W)EnC#+BHoDhdH%|3NgoMy(|k4Jq$$HHGfL*O3Kw^hCejoeyTeU$D+ELnzRw08
z4B+UK+CMb>ZNpQP`?N+w8o#qQl2x(Gcdk!gUm+lx@Zz7@_PN^MH~g+4`TFIB*RKn&
zUr)Z}U3jZcc&jgYtWP-9{}k0-d5g4>_PFAgy8F5n0-`g%-wb>X{Xq1|o<AJ=+e0{-
lWMEYwD>*Q_FmO{CxcL;No*pPAt=}CYj9_8a+@|q{{dbjlhw1<T

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_430740.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_430740.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c2a6b7a1921b2b5fea4e911d04d935fb1ca65e40
GIT binary patch
literal 14662
zcmcgzX>40pc7BihE-n(aFVt$vl5E+EWjl^-$+EmJitX5zogpYbN}_f>QeK$H3^Pp|
zG6_ahJFTc`+R$l$P-CG{f+<EG3=mDwc0AJp!y9U1;Z-dH%m9V|6w25?+WzXf_wkXG
zhKlSA&<p7DF6W$k?z!8!-+lTQy<S5>2)KVV7^|bG-{OoIOsT{ZtDK@{DTZR`5vo`C
zrF&_TmyAk#Wi%zB-1HEUBr*%Xq+GYL4CfdLBV}ZaoKd_dW0Z_?L3Llc4TqXhKPQLe
zxjEFJ*Yjy5d2SBei|1<t)2maq(ma!`uvU^3hnA5)gLQEmQbtF{V?!GQ>H&(;e?T*a
z0eT@%93>cSLyl23x@AMg9Ob4h%FSDpTec|A&t2ZHVG7=q-A^?v{`RWXl$v517^|Ba
z%Fm%yA(UHlloxG5U%Ul<iCf2%ZoyNQyS(4Pl)owO)qjh1BV#JwlRWd9c|K|hk-cHY
z3`m(urfNX4V7o67Y_-MMZ#9-%jD5e1sm?KG24)8tuZkSw0(J(j8nBxY#&rktyyI8<
z4db`fIBA$VXwSshnff>BUNelBIX%BDcWHa$W31@;$44Q4OwkZk;gkv@yNuU$p1pAF
zjN{U&-s6sQ8*=A2<j(NA6E9!5axq2uSccgpyk=}_)Zz6x2i#s>jnlWC?1cAm5VwE_
z<1yYdAL9jQm-6&Eo<7ghXLz~GG2vsOMClqI>-P+JdFinGF0W_ZUboNT8+Z8K>^Q3g
zE*7iFs&Rz(ZeDrm;@MM|9cNrckP`!@!R<Wh1eRIK2YnR6P-;GidHl=J3zGXOia^me
zw9+iv;w)O+`%Qt9a~5&_1xmJ|RdD%f+EUKSmHOfQ3Y2k0T$vwq4wQ4{oRySS_^=sB
z;7Yg(KUjgYrg<y53gD^qD=5kjG=VB20di1=<=D6?&VuD+>4UAcDKK<KcOs{nvvK*)
z#Fy>|;j7__xq@fnD-ioY_-Z+dtA^8>`cnx*^-GFDKTd_^;99O0*WkKTjasY;)N!;>
zo8e<*xaXWkq~U5dacjkzKz)`~a(D)uh0E`k_|mo-%Hbs}$i;pH8hm*oDMM#T&NWw*
zTme^z^$@wm-!3XbzY0wTc5picOA2(GZ9uGM=j@!BjB_I=<r+DI*t0+AbDmfe*vZL&
z(kSLPQ>LtE66*s^Sv|>dZgO?$wbZ-~Wqq2mWgE(!o3-K;!!V|dVnHdM?txv~$Y|O^
z2Aw5icaFIOYlk5-FVN~Ur^j={`~w?hsP=FzT&o{8C`RpvT_v!W+s*CC%C~WQhYCbF
zncr`oRidT1wr|f%c8Xni90M<K4O!O8;ZJbQ+zYu{;+luD_t}*CqITk(_3NRH2Chz=
z)10tAacLb_FP3gtm$<GzLce=kMsW=}TbAT%d8i~~K`|w26WI4H_qz6Px!3LIB%F?G
z-?(du>xR>F`#0`8Vol({W*$zCXZL1$Va}5|b&xA$q{BPl49q@*%0vrfez^nOKJMUx
zMqDK{bvJwG&*8D;;;?Jav!D=Vr+Jz4j>r2LpO!34d1{{K<&5v{g!@0mHs>Y0Y}Dx;
z=H=tQK{v~4q2e*#2j^+l20wNqFY%4=nhAD%fOU>KJPa>$F`iqzbksA(E1axzY{1RS
z@p<p%mHi{*PT$@=yj&=jL6+ea<Nf_!#~8>N=cUZJkHy{KHSQ7jsCx{&g}c1m>l<g?
zyvFGpAN9B#PKL3+$jhDB$Kd6C_=m+ykXQ71Ntv?GKS4_I0%t8a!p=9Z_WD>4<90Yl
zGs)p}vM(z+mM(Q=XkBBxCMBT{ERso&@mjImKQWx00geH7d}_ks^?(U-I6N#q3VG=S
z*i8kI!#m*sHL#<FbI`V!9OI2*(lh2DLV1-S8+f(-9@gti@#r#5f&{rBi2RK4N@8p<
zfRN~eF(M_yFjm-PUNEBYt980uQ=?NOV04zJVFC=p;NIco1LQ|3nA*#$QnvQ;w3Da%
zcu5~Pdr-zJ`yAduPrr{>`cnyMpJS4j`XPcrW89NG?MkTuMi%q|6Dx@C2zt02c;b0q
z1Orul`|!UPcikRmhrJU{mwVTs(>3h$4UUgBgF`#!+vR0lyL|4^iCvJ}<r(v}L6bh{
zbIZhC2NXGAy7<P&9IkPgG;Mo#x3}$v8eT6DIfmWrn0tgB00r^LdOrsrHAp=@NNM%c
z&Ee)~&x)opcx)}tG#v;BVz!mM+Th7Gqj^?2qm0tgLrLR~;Hk~|)xw&X2Nmv0$nsb7
z%n55f%Bv5aTs4<OZz8ijcxKIFjogjBhzeU4bxF%h!LzHn!sy;u87gf?x|ZPaRlPA`
zsX_XhxDM&sAaAflMv$TU!<Rq0e(!pGa<M5{cLW)Z1W$ZJjlLkNL;Bhe*^lntySr#w
zJezFjK>Chg_p06;x%$JNm@Ik~71YJmsGt?;TNk^R+CDcewSRJ9*@N0HApHe_vR|N_
z8IPNgwK48N1?@=RzSOW>`zw060UbR3@H#s93evw4>|QhH&+eGn5j`7kN|d($jQ!02
zz`tTX4gG}{TYu0uJ1{d4b;imTmB`kfwC;bTKM<l<ji$(1WUPv{BV%LymBp@~+7?gD
zJCN~ENWN+;h?XE@4W!IP(HCL|v4PCZi^?V0Pn}CjwEO7tLA3iEGM@`6S1l#cE3q4>
zd^fV}UOchX^|@{71ZwMgNTaq>4{xBo*O28}NVTRjOrHp!h;+YmAw+M?=<}wphOb7h
z#@gd;pPJ(BsAlh?6V<dYc~|tuLXtIuae5#;5E+bJjbHw>HGUP<y|6^1x&zCm6~nQR
zbk$P)LtFH6v|;8*tOr@@<2Gd88B(rUilen3(3^`_^Nf)bVJ_;0VFlhib7Ua=ddz|h
zwU9IA&st}!?@8X*%xRLQnwaaO{(JokFMr%S-<z!8k4*cQI+5`(SVd*|0XutZ<`!7B
z;G?2@MRD854f732+n!|MUZmO^(ypouk)~K7GVh2VK;|~2Y6~fF*`Zhive@IGXUn1;
znO{Vz7vEN_+bF}q^=e9;KWzvbB2%-k&Aj%guo)FLCsi%Mj&GQ2ThC7z`RlR5ADQA^
z@j_&4P0h7a%gTqcUpXHt(b0>j?IO}&gvn+o_;Y78KQe#}6)_W-C3ZXR`?M#18#S~q
z*-*oaNPh^Zl!l1yd)%5zGp!1%BG#xWX8lsN<9CqPhxL(uutfits^%xKlqsIR!z(9m
zyFCMgK3?H<IY;3BtC%Fm7~6>n6ysCAi7BXL-M%Sy%!Q9nF<=jj+*kh$;<waqX=W*o
z8cN+sMI!tw-s8Q>({OJUbKj#mdRuBq7B!XY9()sy__x&o1<1mO{ieW3@xcQ=8}=WS
zThPcc&D$DI!6~tKLbOz5wJX_LGVsXo9fpw;Kb73shz!YT3i>Dg)||Q9B$|db+qRIR
zW0XX<&05KWEk3Y^5QefxG*uQ>hc*2Y7|R@YY$(lf$IRfK0eMIr0&YhArYfNFfrl&v
zPDO6R6x?*>;BiWE8(=+ZD1F-$DZ!dj(Hq{PUY@R}x8cuSpW&Bp!=Jl8!!Ox}KX-kG
zU%Cx{?)nVB>^}DUAkY*izeL$J=l%H|Rijg0Usa#G3ScRpXJBf4%IhylE%O|8#7icQ
zF^ipXf5}<5lktoVR52cKO}(D+v8qvz7rX)2;A89ofU~S%+_yX~H}PRz*()B;CalpD
zd^7w@$#y7KnC4(dz%xU<g=O9Fa;)bt%u0sfDk42z*-%E-dA|fKAUmJsfMUs5UBSa)
z8z2jCo$TE4%N=amYxd$ztST5}`{9>Y9U5_t_A$=G{+%fY2z<CHCm7Q2b`a;uyQk&Q
z$T)14-oua(h#6q@wnOyaL26B9nAV21k&cKjdL9+-Osbj|ZhidP{A)|COU&|Nbok}u
zu1iRDX;q~QT@UAdEteK6*g@d6t9ZS~3x1e5YH%eObWXs<0-RIVATI|W&Ucq(fs|OD
z_++qe6L;UPWj(lJ2uH&>8o?3X#o19Dk-LH9%p@-xfa^h4_q9-)_B@Xs70gh)W#`%N
z0{un!^Zo;j{Qm^0bt9$IPag>%S<#jyWNnFxwj{*bvQ@45k+uqHt5&qt3E9y^?a?H}
z+UixUZn{0({zg}@BRILLHcpp^%OjIWT^#K|>hfUcsw$5hRZgTTf<slSi%8yXPsnyB
z@^>d?yF=}(TGRBQ@S!LjJ`$ab9h`f8kw%rRi$kd5=oi|fxFzk;=cRFep{-2FDihku
zjhwA>Q*qPW$QRnigsd^4ZCq9AgRifdth1#vrErp(qOZg|K0Y~ra;f996Aw<Tn7TrW
zrxK}75$t-ZqU7dCEs_<ks??$ONO!b5){T>`At(Hh!`bwXHqtYDZRT3k`4=~Ex3O0-
znN$@=+uuJtcQ|fKmNtPiB3L7-DvH*>-#phGr;{a(&s%JMYEsJ;>-m(<96Tq?Hi-a8
z<4vAS4swOGOIUoavxN}3#CJ(Z6W^bl_J?4NZ?~@Dluzvn0TXB92yU0PvU6aGfZgVa
zYkCtF0gVUDS=>4H1tx=qTLAAQxL_7X?)Hq??PYLTf=T9cW==K?Ed>g=d;!@ASOEjF
z5+tKAOLmU)6Hs6?rx1}6;8&*8fPgH>L|h|K1at<1d}bpexlY|8hKAQgMVd1kna^<^
zbDQZ)xl*nK`zYWOz<LLazC=p_N)PFw^cjtZSqNFUUXItt^w^eX*&!FITC|PqG%_i+
z3+F&;-UzyJ<-~(g;dmQa-=HVhPMx+~1y}LyB?T(7dW<*JO@YhfjEn}4=s-5&o<p|<
ztvLGvm02=#&QwMt(lR>Y$yRas&<f1FRNj^)Ar~%Mf%O`Yh*F>z_+TUfY?GGWMZF3z
zM4*~Thdw|X_;jr%E21W=jS`VN^UKww@V^RS^>Q`BD+lZZc-MdssO4(mb%gZ54`qO=
zR&sTIuwtO{-Irw4mO8<)wuMgFFCV#ds!!=up3<p)vrZfI$wrrRp^^>wr9ZO<|A<+%
z<K1CEjHU3(q)+b*ctpYGoM0bpFMF27b77wL@50;4f?l*Qcz`r#PD#nUI*D>KuT72H
z$Zdpi*(g^6nx@~IU_VR0N(FXqBWovD##ys<yi3^)0xnCOO|}wx%2q*i8BU&3_~n(u
zZubPZo)~a~&~h}D`05B-19`zwEypSBxUjVl*^O)+PS@kej-zHA?SKdnTIU^h7f#8+
zd&8)#3w*W-b|<E2#N|qOuf=W_+eD~t0|4yirQWGgb`KQTn|S#hg12f@E;Pw#gxfMn
z8_9*)0odEHo53ZS<1`Jh-pRnOcQUZ+<n1)RI(a)&>~*D!y?_;pfG)s|A{y(T7!zDO
zc(M^*mwB~-hhmIX?w#rbfK~1TaCJ<`0pf^pMkp12#|W-1xQtgwzwbCOmJNLcg8>f)
z19;lc)04bH=oxsL80iEs)HOchb@X|BJnaE<j*mDzy!4iHgjW&*H-O!MOhY-Si#fn3
zpt>&GO1vhO!&t0*5+mQhEnuQvJPv7x^cfO@$C|&<OHaX;3m|I>{=EMMiwj`Oddg&(
z)z9do&ZMy_cxqLLK|tL`5b$%`@?}8o8crkK>ELmUft?GVi`tU9GC&%27>(0aeYoeN
z1NRQZdjOxTd1;CHykltq)pR3WHwGuok)H5%0UZ<)T2rJud?eU~Q5j`e8IecjF*Pc(
zBcnZjeDM@&dI=d{TJB0*ytJaa3_dS3(u;JJLgU@x?nrC2HO8#ycIGO<?Oh4K8fB2K
z8d}%ng{+afaK$54DN>cb*ZKa*xsyp%U9dxhglx05GqnJV`Dgq|b9L+rGB*OwWo}ut
z008#LgyFNFnLjIfP?R)vE_W=mN!4jk30ziLSoZGA)7Qe+-Z6kQKm#Ee;bJ!zdr;lJ
zgcSptcOKkX(VqmQ6Kb!AuSX`Mws#!SNu;j=a{yRL&#0q4;qL-M43^M@HIY^<AYt8;
zRPDtw0S1jYzkdTzPm?ujn<)WSKt5ZMu{I>f_~KxA5KKqUsbd`<IO7Ge!Fy*GO-aLE
zzy!?&QCrkGS2xoFSSKKO4M<fSR;;TjL-A7$1pu5V*<2WHooS5G$YhIkAX8mPu~tw>
zyzpCbdd?s3_>ptb8u!efU9u$$4lSFOdwyPk3QmMHYlX!GOB{+%F4e9S9(h#Qi3&Ua
zanCRI|9pS4@N8JOu7t+cRTNnDc>FY~-G@y3mg<&UA2dExqXRw2)Dt|tCR4n1@{N<B
z-e_68`!}+^7}<Uy)-iW5UW`iiAl;rt_tNAiL(8Yp3+IvUJPde>;Yy@CX8nz9$EqQX
z^ctEM3zqC?_c3HR7Ca#mUX8e8^<T>D#LIWVv`+`@ZxJ8<U!n9Z#aqhl5W4_I^s*(S
zL=n_Y@wRds97(~@_)H5c;roNMXY(AWl0-b)0+Otjbm{)26Jfyra<r7g@7e;t%CsbX
z)|MD4_KSob{?YxDg%lyM5+eiDOzunHyEua6!F>V{Gfoy(gq5Iw3h_yI9&3?7gmTv_
z(tfpM8~)t&8Gh+D{JHBh{IYHMbJu71>H8_f5d0ltm3}FpKFagL%dSKKMhHYQ0fxy9
zPGPX+{{x&NfRyxn);$|vtn5<u7W`zKgbe@`dmHNfl^YJTKg63p1tM<?M7i;%91v6n
zW)ko|?BUuqye5M-v3H?}#gm%&MeLv86tU!MI7J*Le4MfzM0S<nJ9OfL4CaI#D)x08
z;oA{G6ukI8E1cpYxTN3EJN6SGz=FMH0-%J?8eLe2Pniu^(VD?BJsci}qmZ847i*2~
zT)6V_jrkkPre75OylBO68n!^adHP291{?(bxn1$rL~-+vul(fIPhNf4`s@9_+`po~
z3@4M$G<_y~CTfZf%~i%*<CF6*EcVPdC5qaAHuc$S4_-@Ly8P(U4Rq<oitc9ccovvb
z9L-0v3XI@jFy}Z<v|>&1E6X1R<mho{BR%irMGM|9n=6Ys|GIKjWqz8c0=&jd=`6Ul
zgw~dj*~pGg2FI1&PQh*%f*{*^HEgzIONWBZ0dLs>SwPOoV9SDQT|nW(JR}TdOG}jj
zI4_574Y-7m>!AQPqa0ubd~BGK98hMp0pP>tz-3^f?56@6&!^2nfOy4i46dsCp%3b;
z2Zr<(2zB832Q;ufs5y<eLE{@Q$>D1=c@QF>H^~X0qs@Hu#%aYiI2GpammC7lcN=BY
zy9eQtng&a_^p*tebwPW&th#Jn+K4W2u@f}G5{WK2pGy}#e2yc<hgm=kpWmc(z#Qa>
zi57Gsd3-rn0=1~)KG3lnE|$un^Z}Bw;{8+-HcN%DS+ai*MZ#u4Zc;UnwX3ssfy}bU
zy8wKvg5hV!hzDHjCR`vVAG)xMn9s0z6X=9eHh?31UXks9SEQaAwSx0c*m-(@r^nd8
z!9<sE^tTXs@yWf>^B0_a?bH~)j1VB6eE>wCW9kOjHvos$QTlxBs=skO*a;q_N)ze{
zD~MN_+7x=C)(@vX3fv1UUH$Ak55BXaKa1bw3m=)Q5x8volIBL?DSqGVp_xN5dgjQN
z`WkoyH(4W-e^nIf0G|{)w9(1A`p8}EJx<13?@cYz_lA*a&!P(%4}?0_s_J6Szf*<I
zz_$;rQP~%|@~`ETxnx~R8EOF%#%}2MuWgW71Y41F&I(v^F*4P}P4S-jf<@cB7Ma?X
zq{#Rpv<qJV^v>i#qO3fojd#Q+<6Wq#6_vFvzOvM@G`ZCE$xT$+5rS(%#2IOO`|Q`s
zRFl?q4FJB6v}H(Jmef`xWEFx_m|po{J^ZAD^G}{a1pj<O2c%h-`t<sT%2WV%ga%h7
z8{o>Ze=JDTyMSyPc{B%~#6E{SdDh3oat;HkDJ^e;9sxx_8BoE_fN#bmz^9_{v<oXq
zdLLE{4gn1#=QJKVpyjl}dcgAyKIxiboa`hd?X>Xxt@XL#dn1?A>vpu-<>YK6Uv)9?
zi4mE-t^3I7Mczd0I^j_zeewx6^lKoGy^iH$0K(BnJ{cmnYh54tLfkPi4i!A@;Pt65
zaZ-=&7?_wE@p--2<IP?TsSB^5+&Ig+T|V(?iv1^`{SWx_-i0VgePzlIp8lOmPhO;Y
zqBLA0_WiivC*_}%uc(d$JHDZ&e(z$(a^p(<IV7tI9*0BkY|QplM-{Zhop9?=E|)#@
zC-ZxQ=U~~Xt&zaGT$ZN@p1_Ymmf(5ug#p|3JXjO|g5QJf|Cj=(nEhv5kS}-}_<qjk
z34L!FflukC;JYPWC8h|r!>gQAzH#5wn44D|BVXI|(jh<~)Zo8(eeOFGtneD9?ZzM9
zU50l{Kor!c#>Au)OiV_J#hwPQ5GaJf!}|!a8?O~C?id&!Vdg2}xb4UEszamW%+!ec
zFq?!d#;Co+uxQq$G)@1O()}By|97fvT|r4qLF-$UZ&ZGzDhMg?yG@K;I+p0UlyLVW
z>p;RcwN6o;l4BBBYw9k^YMRRXOjOS*tMeIJWS5?W%KJ=IMAqd*{{XTMCZ=vdACF18
zNFR@9_3_zS6lDz}t0!^mHpuFd94E56CF>TAUh#V?r7nVxnIiV5r3Q&)y@Hac-YR*c
zWL>h4Zh;3bOTlc@Ow)RSklWSz@yPs$m^(wCqkrA>%T%pZq%Fj>R;sb-<Ffg(-{ag9
zDJ9W8sl@WDa3x1mg(a(1wO{M2Y4fU5_efcUltt@O$bAJqrz7lGmqQw6fZqH_SB`Y$
z>q?wgL4Nu|_`<px=QNZle_e}Ha8!wOSmL^YQfME^tw?Ttl85uB;XnOyOr<@@diY^$
z;@b5URd4p>=|t8e4?7aqdskHOjwnt&7`&|Vb)`(N02MU)kSnBls#ikajA`5Lq#GfZ
zvYkoD3AXz^&I$G~VIDJNzrIOZ=<3Lo*_$&r*C|NGy-)DZdK;MOYqf>01W<}tMGEP!
xbf%O|<d6d!feQ}L#p_C(Q(>E64p1#^11;pA>@T4$Umv3KYLbT9H?(9i{vX`&K1Tom

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_434177.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_434177.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b5a0d40d9eb2aa07cc4b38a309771cb7aa0aec25
GIT binary patch
literal 13580
zcmdTqX>41^neRQ`r$kaBby>1(owjUQvTVhUVq3QzSxOY2v6V73A0_Lg{7Csw9<fZ3
zB4iV+sq`?F1~AnWFdYkPx(E;^TOdxii#k{=$_b5%`_>BxTLTOKQ{og@^v~`$^GJ%K
zDa&aJEOsQ$o9p{#=9`)Cn)w%<PEA43`#w5<rHZ2dgfpq2PbMClB@}gyVkwrMpw5V2
z`V39-%%tRul%^c?7{QYQ6~F9emU)Z5l`K3XU#FGCAstKgm4Sej<}M$Wva+|NX{<^H
z_ioGpOeRTr!IR~z9R3unl2v^mW!0>5QF9CChr=^LXrBo}m(hoo)jm@ny7Z`?4MNAR
z12G~Sp;-Md>BYQTj5xD(D4(C3!mMGPa^pJXrgh2-)+sN{T|TU3&8sV$USSPud5b!u
zWh>bt2Q^kA&L}fxiyeB{6(w)U&g4O>(sf#uty8{fopOv-$(94we0B?4@fLl?06WBx
z9+&Y7UBC4a9>{<_xr4~4a2o#}2O+vf@f1(b(iAlYzwF>nt`F2ov+F48RuaM^0UQj*
z!P2v;?}bUqOL*xpbBwBI1|H!q>m>r?cEWE$kd98dpR1P%(#xZ}n+4gV%{9JD{4@!Y
z%cHw+)Z~%@&}JO|@^a%PCpYezw%Hwx=WX_JoBO<TYKLvaG39P_arQ>HV{*C?a*cqu
z#X4zoPtHv2oW5d(BCDGlbvvi5b|>qww(M?cYHfuY!D3|{7iMfz?$KF?l|ao*0s3(c
zvj+wIT!$d?Qp=jWK()VZNnMK6r5|)$@15_BtE;@732lC0kN;?J5NXPn)LW2x%deVm
zv@W#9)!U&`qYp@Y&v{>Z3^*u3(Q)*p&OU2@DluTs<Y0J~WDV62U!&aVwHr&X7{($7
zmQJsfdV`isx}}C!^U7K1Cj%nK9$;x+nL5R@(49xiYk1W&!Kv23>3A)0Z0bi0OARx{
zfQgr3EWD1D%)*>-9j+DYNKg7FAmkfB<UIkQ*Z?A**Yc8a=-*@Db-a|MjJzRhq{gh#
z!D@I+8FZ5;7b4>WCq|EF!JAlmQJUiLo`MaaXg)6qCCh*++yIK<^OI2W3@9_9EsTvN
zRPb1M3#4F7o+3A#VlnUqsU0zdsZi`G;fu#KsoK@AJDnWUrjzMJ3I}hVg<Z@SVyb&e
z`I5g8rZT>iFC$z-Il$oq@CcuWM@oopGJ+Iy3PI*{pLcNoB@SujU@}2b9N{tw4zH1*
zp5~k*oNdxN$_jEDXPX*v2+|3sjU^|X!>3MA3`2o?cXRzFK{D;;1hva<n{c?SIIWs>
za85Bv_Y3rZpmYHz0UmN8opPm9vs^yl;|v(7Y<iTnPKuu?f#D|MHzlYpSe?VeE{EGC
z=##yq@;b4nR924X2nfXQ6lcar<(M})Sb=s4^sJytwzckBO*RP(@J(hEz8B$pvB|Xw
z015kCFXD6<^^=@%+`&ybCb;LI7IQ<_PhbhW)VFF%mv^<_-yf`uYs<Xd548G>TtcM}
zSo{?qG+*C0zb`ZxR>VtpA=NH#$NCip(|hd!cc6E!G<X>qYQxPD!_C%6*JqWHUbL+Z
z8QQ!@66T`!4Z*IUWo|rl7?~R)OvH9a5iR)aLezp9+mX55JCG=}yiW&Pf{MAbq32NH
z_AnP2ym=`q{md3spq+<M;URDTvMw)B=|Ac1Nu(1R!+Vv1<AGZL!QjbI*GHA1-gzt1
zG<drn!YohuPX&$z_sv<uEs+cNb^E+M50vVw3cn(t4*me;Z;w<(?e~=(-u6_nD%g+m
z>m$-==Y8cNZ~L;r6tK;igH3Z<m_&YYuzgPFJ@P<T6*?K$HN4s5?eH-Pwf1VYzxt=l
zHT9f2t}YGQkh&t&gj7{Pw5QZ9Yji%&x7XXx<-y`S^5SSSL>yK?>!pHLls3nXoaqLU
zlbIV>lj{?-y|27<;$^GY@)4Fn^^BmNnwhk^+#p+Bf(oZE*|=#JIa-en;U*HU5<c7(
zhy=P1AQX1z)bQwtOOT8^u5i!e$~GLmfTIJrnc~>XM~@u0_6hRtlidT>K0Dsiseq3*
zk$(Z;RNq1VnKL*gW)xY0U6p^94O&W4JPo)d<~Ahc(vo-?pP!O+p5hJK%6UV&Z3)N*
zX1osQA!BJzDg4T&)V!HDVR;DLvlLR8kCwTy>Olfu%$E@kYf59;#Fqigrdi-`gtwdd
z0>Ih@Sj#pTivoCml183#zKAa;y;V#}d4;DOMpFTJ^Kn@Q9=tAD0W^g4{K*J5^A_Il
zOmJyh5V%UdV#A({sSy*1Eg)q#XUS@!)8JZu%UY=|YApnAD^H8HtJ(-F#Z>3jc-#cK
zG7DOhs_|5T4oh%90j*E9;j^LhQZ=4xUiv+tYceR5sV^qigwN*<!_3oV^`b0ALr<+6
za|;q+70Y>JN>Ayc0`zPD3VW}PFLbH+I^IZVQa)ZnK@Iowj8R}2mlgP}Ptd-cufzLx
z9B7O!(?#X2q^{|y-vC#2Hnm`!tGHB)>eQG$+cv;d^Hfao3{2ZMz*O~AOmqgOhU}KG
z&#*>Dc9UlZ-@s~#ZDz_MA!IXF5i{|ukm62bPltSpuIAYZy=$;N_kTEsMtop7{m
z_=I?N@r`TpO&KeZDIb#5;OqHad~JFM)Mm8Ky)V^#A;+-H6b<W;I_X(_0%`#Jnq9Vb
z$2Mp5l50%Od{gF_;4~PMya!Y(&sM&QH?H9}xU`C|PM3;Y1eaFxH91Oa0`$8vDMk1^
zmL50%N<O{&ujJD$JOftK?zMb3O-&u&vX*nEYCL<gVR#wl2ifg;IWEPg!m~Gn(nVPZ
z0I$&=zBbqX=lA6D(u|coi6M20_`Qp|)Gnf_E7boFih|4*ZD?W_<6ZkbX<Ys!g)oh?
zsZ*~PtuPMro=31)Ni~xeWUTwjw1dOuy`Xkn9JRZx6E>F{)I)qwI14V%BjuyueVKMn
zjM}eocxAal9ATO82#ch8ngG=26SIv2sY3};J3D$&kW7wFaiusfBNh^e4H`j4OgRp(
zFfrmdtT71^*69{xF1M2dD-RD0#x&uW1pkoLeML~)+|J2SyVb_B^{s-;MhraJIq_r1
zAFcx9+l-^McFT2Q%&Mf>XPaD2j;E97GLm5ACEMCp+uElDU9!}1(KcZnUz?rEr7v?m
zcpSYrs=-k$9tSZi$3Z=}o||ym$6a6{uBN91<p}4Tna0MhW_XlyxvioVsuhb}*vmC3
zC;*a-K{=kZMg=)GC9$<hzEjEXIGD_sEG|J#sN@nftERC_P^WEUQ2K3lyFiZ%v`x^E
zky%MgK`mx*OF=1Guhw&dY#fGoSx{h7OgJwIN}M=9I&xls<-i5dAIU0gR@eE_VYi?l
z0|SaC6EH-wVlXs2c=}x9u2vw=dM54$<)Q_w6CH-uq}}@_;A?=Ns}{rt*uA@+X7{eO
zf*%@8*DQ0EpdolPZm9RZ_#i94tS|*Ge5EK#m<oK#gxTWPESrjgN0F%xXUjun$h^a+
zd0;XJW<!0*(ika=n+|x7CbX8|o=_VqZA98#-tJ|EK4AFa8xM>H*J|f#gO$NkabvYl
zkpNV!a|iv(Wupn_po?XlF))O5mA~q^ab)30*arBj4j|nDYzVJkQ}_XMT{W)?RfdM*
zMa@Xp?CrsbPQKqBbO(Fqtf4EYa2L|;itLS6{g#f_-Z^;pRkV8m=>|l+!|xA<q`^~j
z&aeTQw}nShVJp(LMr-aC{Px0K%cqU^j-dS~knRMaHI{|UAJO5KuwtPi(vB+kL^q+$
zJ;>O5uO>El;;U1qV}qx^Y>W+!q8CSzan#$FFq8x@{?ZmM2#w7DU8E9K?2dR)c^5Kt
z-;>{Se|6&Iy-Q!_#m<bN!z0Kr;(hTUSkiU=y1>y;L(J6pG55*ro!R^94sYi}m{C(;
zB*-u68hrG>X$%2dumPEC!nJX8(}R5DHN~7FC=Z<scm29D+`C|nT)Jzx^9HK!xVJTC
z9lxJH;cI_TQg*#|zBaTy((_qUl#RCDdFk#*?B&5P#!<^)?A4+BC9nDV9u${ex6E5Y
zC6SuX4AHKr<xb<>-g~w$`cU&ru~TR67oYXL_|Q^(?b6((;KgvyubU!lr1j=Y(UE)f
zr{k#MNNn(x`<7$A!->MuH2p82!n$xfD%j!cPFN~JRdav0WZnj(UTnVIdb2fd-o0er
zi_Ck)*~ZNszTQM}WoU4IQ@9Eh?Od`nBTMtg&7ZX1X^mT+U$PuPmIJ@xKA-(`Hg0(l
z_f!^~MTPa@v#8)X=mGX+2{LaFzkv$(`+6S2uB(}=fi2!0+8sC6`Z^z&i>{5#jRc27
zS3Wi0X}>#&YI{+6@4eyJiC4cmI}|%H^rbWQx(yB3V(fTq%86Jf8gRxg&8|>XKl3W{
zEk#+*Fuq>ApD|`js3yEMZrthXTvqA>4WVLW+=i6feDVZj+rUF&stT)+u?Z=gaG5En
z4b!NoKKvT8>_^J|K21Vt4Dg`~$Wj;XN9KJ<x$np7m3m6QW2J#of+OgMe8Omf#WvO~
z8gCchERHlqCgSy-$k++TX8jt2IanMz_0eEN8a{=p_n_iE$gn4>g4OK$>Xl>ndQsPL
z^xSb|I1ZyS7QbH^JRYn?#x0>i=qTJ8Y5B|$X+_(gkJ`}ogUE2mC&$hsrC%8^2Tj+_
z^X8EJhGs#tw0SSuyf<Fl8Xf+lvU_>`;jCZt%ma;`8j4w8N2gwo*;#aoMF#e}3|;5f
z1%`w6u>6n8M&gUIr=1tTJ+Y`KZXE{Vx212(-qzy_sxc_e4ju)#Ae8V^v5ZH}N`9>O
zNqsV(eptdv-%@%semyH8ZjKf=#z;ag_l#ffm-=PHl8mb^Fu<|{j3I|>15D*4ZjW}V
zYJ+}oFAT5P7!xmN8Da#=vGd2HbEn<yyoOwiz=a(s*bFbhBj@FS5sZQCz{=CgYwr5A
z1B<6OfX`jO3a=eYy9riDaVwc*6~u*Q;I&WhWeToZa<=%}^pnQ2Za<1Ny_lTiSfyv~
z`g9Mxl2`F?aqrjjx<%EkqzOn<WJh9y49ufr6wDTT{<8v$-3&>0B3y!M2Dp9Dg4>TH
ztWDdKbp#CWQ(X8MpO2qOHgbddX&x?U@eWEkcrwf<tfglKKLhQ_Ra~mQUotF#QAq|?
z6;N>H%Eil4ZUErHl`QS=KHi?85M#a6g*ErhUawcwos?}8w#jp>?ZE8zq!yKZuj*>v
z*+%qE*8xa~jo-tFc0u&tUg`t$_0suLxH6E2e}L-R;>9mKD6YsZN)&JYTE-M_A$;a0
z!@UTwf}F+ng@arZaYvv;bb-rPr?l#WUe&4VX|NVXC+k%r5*gSGc2Gaz2HAaum>8T7
zqrzICAQx44&W|$^*UV&n9_Pa8e0*hm4lb1^r#Xkq1vfKtQ9<Tj#=w<0+Jd7_+*)C`
ziq_Iv=eQspfg2@(wu`zxp)NjtSZRIzbsXbxNF;Rey5!}40x<8u&-F5FslRxsgg)=;
zh=0V}n=qL{c@(2UNa^#uy?>T6+AZF$6(tshSc}veuJ-x+K<a{q5X@Vgx$U{>xjXp#
z(_fsvuO0By50mwVU^}QoBN5vt=kJ`quRZ9amv#Dp(SI^<!GG4<^H6FCR3WJ)NXJUI
zhX)fy<sn(3s5saZw87`Pa$XrS{6Z5Nym5NrblCRc*+fy@Qc)u+YK+jJW5!y#mRkBy
zOW(crc*{Vdw(iEv!pw)4B9*`7gR}_zfhKDByy(-SyOsY~x^aV|^6R>JUC0(MstecL
z-f?qBl#XxPpQvt1{nsQm*Cr~e|6Hn*)vlCLhN588ds<&pOu92vd82xvI@}(r{;&bE
zWXB2gWkJ1aO4&1y7(TjKbUYr0cwG?(2XHJYV4!U}fG?I#9Z3%sk6?0ShZOsTw;7VL
zOc9%G$kHscC`n_1cNb&e>B|mTtz>YQA;sP}@K1qI^2m9qhT`Qo&C0NUA=iB__UESi
zQQ-F-#Gm&apmMR})ckUZ9(UTem+ReCioJT2yfQa+S6jH#EP5=5j}<77Jr-GEjo{5y
zuT0@*RrpRJW3;(^SUF!5fsjb~$5p(N_|sHBl3>=p0X=f`kQ$8#-h05SGm8EGnDE;X
z4fu{>@6N*B^Qd@LE=uzZD<=vK!z%Gtq(^$MsCfAp_TFTLjMpr3Ua>(71&Cs3MZ}hN
z;L-m;I9|_)tXVPca7+VJ9}zp)c_^7!J}3%@ekdnGR}>R(<1D6neI7WC&fCCUB)vH5
zxFpEPg8)Hl1J@IdZI=a^9c0!txSgCcQ>^H5`Y{FvVo-$H3sUS|5o90{b~h8*At+oI
zW*m-LN4=K&DQ@;Nh~TE48v&mN?o58!Iy{XZK3%rrj_?QfBsxx{#ASkCNVRZ{1du#W
za$IzPmxm;sEbGGFej*-{QPPvK=1CK`2#x*$elDyXfLzEoV5=5xq?M|xa=+Zi1@_04
z<=*y$PLHp=-+2}6cde0#gO0G&*B96B@OI}Y0n_<}|Fs~CK$3KWC&AYP`GMduq}{xv
zsYROFFdc4=Yj%3Omh}aJ8UIvBhIG|o3DRv}(l#S)Ggw^b;@W*nnnOr)D6Z*P(sUzD
z_wO9PANyh~t{DV4P2Sag{(XU0-g&{>^+0F5de(n7XdqS+{fpvI`;DH3o^aELM<RxW
zf!|brzWvkf_iTSS|K<7nx>GQR{DQe-feV3SbE<3FIqe50uAiMh8_%zYiRYOD?SU?+
z>+;WD_4qx>y1aVt;e^f{tP9!ZcOYFI_G6expT(i3`LfUz=!cJ7K()`s@ne7l$VB`Q
zVoO}R2?zjVZS%JUnYgCZ+m!%M!k%DNOj90{mJ{JYR*|~_>%fH}vL}x_B*m9zM0mUl
z>|;IQL7wYKJ;1WzQ69cJkw4u&fon(kUu6R^X;y@78xRHAA;qdalsj#w@X{39>7rg+
zhS4cA>SP&pF~UA5tW%3mzu-9-?8}^NE-hfk(gI+0EGeA8<}$HK$pzQ<#R*T|L@M*-
zu^K#rQ-gh`<h9A?Y9KPfW?RkU_0YjXxsBR@1+l?Qu_BQbQZofx6YOL0YH66kuPb={
z-v*l~>_wdKekG;e{ZF`VQh;S3AIRX9gn#0FOPDCA&ht1;_~1K`N<O4&+AFd@32-TH
z5VyeE4AH4UZ^pcA^%M}ENc3buHgMiHF)ThPQHrlH@k^&sfgTei*e5I{9${6=!+n{%
zj8R>I$dyu;GgzU>2{j@j^0brt1e*R1H-BE_gL#Elc|ZT=VQ;&4CZW^?Xuk@c^5hj<
zeZ&6-)>wZvbHlUXiJtuYwNGEWpV#L-ybRpnjQ`9#L+}s?`wjp8w2yvZFb8ISUgm30
zn2Ny%I~c5*YYSB&Q_T{%tBl(g_uPKr<_mG-K3^xe?m&6I5bT;80%uTR4S3-Sb}pHk
zk*WFPJ)gXA=Y_bb-PeV+<@R|Q_}YrL`;H_mCBfsMlD`^iK${w|D|k=T5IqttL%VyB
zxd%LYMP)&Es6BKgbQD!Ip`xb9iD*-FG}?yt97dMI;Kr-0yHT=Gve<pQ|7L%@a=-6z
zU@%DIE&`{Kwmeb2<Hp&AvmY0JvgyvIc=f^6>JUAz3JiUv-STxFWh`HjP<r!<k<u1;
zUlP4MnQAPSf`os86A$<o_;4gow?yH@(!+2q>xTAX$mPiabvD_HN4fz%numv^-vOU2
z<B5%om%t;+B(E8Q{q2!^6dt8VmGNj2cqu-8yyR9=H3tusj8~7+9u2P%&&fWR2;5oC
zur|;~i1GL$l)%Lnk^36A1FmE2HkZTNR4*fkhFoH?QyiAfL`V}84zz_zT+oT5EjYsP
zqP<DO)d`#`xIs~zOJ1;O&snji09R{JA<$MqCmQco=Zt%L1};v(FrArjyVg+^3dCVK
zInDuBcSNsnHFN(2JwAY+3!g4{{cI=z7rIh+RpZy--4o~u?G<;-edR%K`%`Lac1POp
zZo6O8kEC0@-M&_Ez*l~&r3!b#B}8FVakuQ=Y`ox%w|_-TsmuY-icFd(_x7&jQ(BXE
zfb27%C1yL1Rv-deVj{!kB6goVqChBc|BMSvA`^NG(n6j%|D6-?)^i5luL;UjN_-J2
z85?zz$De`<UaYy?j?2>=dE_W4Z8L7Cdu9qWvrh7sjadI=Q3UyM$CL}GbQ`)5*9vnJ
zLMTBalGr-poM3NKqOiwuQBbx`I@y^C#{upSkOihgxg@a7RwOh{|B2H6JEi*%s%%A0
zG0L|~-Yofsk<bN?B^0Aw!6_h#SiZuP(8lHJ+8aX)Ln|^!14K<7&V8eRToMA8@241p
z*Zg+Hn-$B-LZAF9xMoAHXlHEjSj;hu%p)=P43M#d>BP=<RTq=^j;*-p?%2z(#8?M1
z564_?z}3!l5L}&WaCJOGD=yl6kHZdUvm?g20M#L;ouKMqRy1;*{2M)`D*D!-VwjbJ
zG$96Qde@4cs@!@*yP#dkBiZ~^)<CkxRMteY1*vQy$(pIM^6PE$Z7UX%Euu;{U2m9g
z_@)?V2_+vF;x5fN|IK-3Gu`-g4{f3=0w=Bw%?+(kkPN#X<ImR(d2~Tgc3nHKU7;Wu
sK5={KCbWR$-NN6OeNje|v9mvTjEf%cDxpnZw^4ap<NB&MHDr_gFM#)k)&Kwi

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_461728.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_461728.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5e71e7115f55c726e54edd81dc6d4554b4ddfb61
GIT binary patch
literal 11735
zcmb_idu&rzn!nf2Yy0~BN}LA?c^U|5ASFQ3M@oP|fb!@74YVHP>x4WVt{ouR>y8<9
zRJ*Mv&a^Y!v>jojYH9|ghEXNh(MZeAKik#*vAH!W*4?axG)Sxb7X~Wr%wPMRbN#q+
z&7<8pkaN%D`_A(_-}%1Z@qZYNdIG|oKmGnJT}u#uL799o<PwiwQxL>uf*}}koEVh8
z<RFRjiV5YQiX?*MC~hauDt#G6P&G=gEkij*`Gj)S6Ux<3DA$xPAJQ}0cU9MO9S>?5
zDoBi4%8WzzgmV28$_-B_r^}baIE?SA26azZ9aH(yGv@N;Ln_81o0Xn%G1l_^GPa<B
zp@a00hOxh^9y9{wKWe5@%Vk#+X6u07OpKdxzDo|86-3Zn*aOQ9>8)5nTX0CEUpw&n
zt^wb%eS^Dw2iN4*)(wdC-lMPo<Zzx+d+hLmeQ)>%0#?~pQjk`{-=l~c32B7P*NuYE
zmIj8ro~w^qpFyc8P}*das?rt-f>Uzz^;}<3`!i@&oUuUb;LMz37DgR)a#qec3vEPQ
zoQpH#GIvCq?~Ai@?pZiqoVmbT!MTB_Vpc;Cvp^QD#4SJ$%1}EVu9BlsJF@Yhl`07g
zSsXiVr;77%#^>TI%medPb2iTOTzsbd957!EM{rf3NQhr37-C3K3FG55s2#2bm7?-o
zsTP$Y9?VzEkrIWBkHUP_C49OyeCuTEQAS~LG-n)AL<*}^PI=u>=4TMCi<tAI3@K~5
zoRp|J6K6qV$#dtweZ*Uz!j9E*_0kGTRMGX{TY>d><_+JQw^ZKvy>(QMfh2GZoEm*+
zLGGhXT%(lZN>@o$plO!Pqm0VrYPt1XVK2BQMs-7d9i2Z2(UxcMt^;1YOK2us^BUe(
zu1>~n!ws&9xE8K8zh<*W=&kO<->QfoDd*lFDd!tF1?Mf1SAAZ>xD6$;XUNw?H-3*x
z+MQC4;y!HRER15Tk097e*}6E^ED6qV8@W1e(+y327f518e(GK2IY!Y@D+w~W_mosY
zHm?s$`|@fJu^?c?3ev3CNKws1W~PGwlW*XfLR3xo!(*a46geAYuaT??s=Ovq5g8Zt
zQ*3CM^-uUl7*Q2qM$U`MiIGWB<7fSo!$DC!8)QRaQ9Cpq@<+CA5!F($3bKr-WI_>9
z?~jBgMgl%R!-(o|B*X@x-B6CBW1F{4RQr8X5mr>6kv;+ZArFe=A(0#qb>Rp*!UTQ(
ziDGiBkUS$xP8Lc7McTk5i)5cg2cCtqO|YPX2^MK?Q8@*ZQbXjM6?K!-6F!s#)_ihO
zwB(Z`lfGd#G(9C!_=8r%Ff_u3BRL*gDh`j#2B8JqX6^%P6&e}}L#g!5=f_|T(M-dl
z22VUJ8vKF4^u+WyEEp@2V<I)?L!7|~TA>l<B3dEz(V)%p`E%bhBIy^&Golvv0yEDg
zpdY-F&_1RQgxg@wbw4Eh{c!t*5IYv0@&|(LXZ?XOf8=avvdupnoQ$-G*+6?FI5E`@
zx%QFCNT+YYAA!+to|^GNkq>q)5}Nb{La=w8+d8_oY=;`rC=vO_g6w2)ob87pq5TMp
zAfGYfv4=1i=h_l&JekpZV!M`U)7-(tLB2jiSI2fgu-GnZ=e0b^_hc-sv3<)W`K-Gk
zH6pm%msF0d*|y|r7R=4D{;bWzpB8N1*ub*gm7Ga+3+~N}bjJQt>_C=w^IKEZLRFhU
zZ;tKG8ZArq2Eo{nrUkk)w)?)(mOL#O>py?(i+xx3rTvT5nZ}m|<IAx<*&k7ZS{wT0
zNJ_<@m=C3Of~#Y3&+X1XTW@#WeErUd(D}OHdR;IcmKuL9!Us0T<<|LD{y=)uQdQTV
z*ngS*=h?fq{V-AJs^jA`mxt$vd4H;UQ7hDUWnA08HSUO$S-T_23HFB6uwZYCQ(22E
z8TsT$^1{41)hbvv#MMypt8;v#yu?=ViIwl;-Sh3KUcuIsZd$Cr<`t}+aZT3d=IiIZ
zDNQQ!`y;6fSIvv{Lfuwe^#Jy6Z(?t94}TJ7Thk#pI&N$31n$!N<0RVGC)M4j>>sn2
z&(EKSp<6%V1garnSalMnovRgu*^wL<OzS^C`o)`9-%Oud+>~j0MKHY*+nY7npHu^D
zaY9;l!Px{OadrsCj>WyV`~F;id#}*hcV|ZEJS;7|$@wck???^{rrMMh`bk|#NB(dm
zeL-mHx?L}{bPL9w*q-}ZQ_}kLe_E#WbH;=*ImC}GYQCkq9zdQ-P)QeGb)|Np_J-n1
z{WX22a_jBpZ>io#AmW5bUKDlbF8JUyjRhG|6At*tgJBkFe^J8*Bh&0;KyH@Up#q!D
zzXY}Yp7uTJGQkm}sHKu{8qUu9+Ng>n%hfU@x<?oVy66}sGCkj?A~|z_AV%dq=GskY
z6V#9b`a&nOBtU5yBlU(Vf3-!`acvy98TGqVR1?Yjr(iN-!;t`^P>tH>RL~Nb2&JKD
z{y(8!Q@G^Fr}HyPPW^O>C)5{uV6^a$Vib(#hVFXKp&<!QeT?wxa~CRFixsql*Ay(8
ztEgdu=SKp;K+cE3(?iRMHuKRWM88%%%L7V~9Jujlx$?G@%(_6=cu7dWRx#Kv&(lj=
zJ*0qvst(DnKOJy-6{1E`%`6&|S1GCv?tY_}T@M+y0irOHjk;Kj-3wn)H4K;UY)ejS
zGr@Dy{>ccs<gmsMZ`s^49s)TIzq}a{_96c55dCkActG3c1`-3HtvgdDp{hMYzwp(z
zTirLiZ=bu<c;_AAwd0wsCj|OLmNu@cl@|Rfq15TweZb73ajv|IqB@AYYS|Rl-r!y>
zm=tIIQ(%X{of$YQs^LP4%;2qHj{+~gVBn}>6T+)w_oK1_6dgbjI(uv*L?SuE9!Htt
zGN3`^F3VS6l@_D&iOayg4b(5eU-*v@{VhhUY6#jm*OlnH)EDcGoy$_zIdj6ylLF=8
zj|fz4svZ<utaq6*&KVMh<Pn}s?n%{u(Q>tAvHn);&DOhAcdYk2l}fFDOcQEbvQbdE
zvy?8rBk4z<jyU>Yg=75y*e{=)Kgs()ItBgQqbdZdg12U<D*i}$BBwi>`|rwHtlv2e
zY7Hn?+8FD{>o4ky-oL0X`u73(c}0?sB<0a#Fr}U)(#2C9H9lRKnSxU<Imb~GXOeN0
z(N^Ff8w!FC1B#l#X~zy#)B>)nQF2zXJ7X@oMQgx?a(d1R#=Wwr*G7>zlmwYEUdB<)
z>#3+5oG62|akc`b9GXBTcu9~^IyeVsM}PyPo&~)F@Pyq!06>A#F3$Ok(Ux%<3uAC|
zuKx#j1%M2AT)DBx9iws%V<n?OJ0n}kGVW7;cL6f-z<fcq$|Rzk^W<T)c^-*=7GyM9
zCF80nSz5?)RnIw!Dv&7?NGGUbuHaZktHJH8MstbQ0Nf;{YGplo%Jf*nx%1;B<#Q@W
zTgz1xX`z2C;YkJCT_WSAH8Nh4?{y9M0Vr~509d7Pit_#R5lO{caL%LaxOE(Ml%sXf
za~<BX!Ub2(f+#(c`SU1SkMd`(t~mOC-1#e!$$Hr+%E@H?50gn*Yjvfo3KC*qC?qMv
z<kO`KEDWGR0pwJ+YkB^BE$j*T7MyzkpVmXma2?9}FRL9HD$k3hvjJe025b>N*Gb|U
zz;c996*-D$3!N%i?`2OS@as$Xi{p7denSa=0m^;O{<S6iMOgIt`ZtyE7a-o}?B7zt
zZ!PS{^Yw2l;kV2Axhigb5A08p{Llzc8wt7zO9kTL>Ll6Y3IJ=gF@Jt@C$dSle;!~d
z2>?b`aZNWIdF!48jqssC1@P4j;dM$jFt*lMbg{9>K3G9`>#)?${a4t-sQh&lp(}C)
z$@mH~8&(j*3c83^kV&_K)cy+62`fl7ufWO>E7cIOh{S7Uk@?M{)5<zggv60W$AopG
z2yp{0<-f=x)do0~KMbG=n5ckADZ^*SMb-I{-~|>ph}y@dFSh=?&7u~N3=BDG83gA5
z5~Y`1Go038fD0!n1O~C83t<tb0-^D60dWem#blt6WQwIsKs4o$EZn+}WqoKQKScvp
zLaU+<8uW!Del{Yi5SD{cIFZVYE({Z41ELndH{W^xI3)ZRaYBuo6IE!OqCsj~g4y(_
z2wFstn-=3!;C8Bz;Vx=&PN+$u$Ak!4lK8`Dx?vIX=hEb;1YZFdMX^E5#jxFY?1+!b
zEgdjj0Ne*KFo3AS%~1b*c#~vbJJxy^IgIFIXyqjQg%?3^03&jgU_^id8Rw0>KVzv&
z?G!9+v3*&C10aN%`I(e8wLjx-7YyyOzWWAqvNiEatS@VJ@pgV@VVz)ZO?NJOg^k^U
zxjWXstf%K%5-rKrlp}rYuD;`*zEjY5es%QL;LX8|{?*v72PVthP+}-~?1Qn`-eq|v
zYjh+p2*%n}k3hcwKoV__Z%+mVLlyL9b0d)Evn^M4F6_+Mnqvc5tMjsZ-u;>Fif6%-
zu{Or`-!}tBk%*?$f~g5w1_%rshh!IjZ2qOs*MHG^wKZed2rZdx$zzGp&yHR>zHmI%
zm#+WRmktXxTLk0Q*q&vhdG18wMDjRPpIkVZF*XBI;jG~Ir9DFR*2Q;(s@;NfckEEs
zR?WX7*xJxAJp9{&bz^M*1C{2z{!9JwQ~bues^;ZfZjkrfRW;t%T9Vr{+N!MG!yilS
zSnvt<P3f82JB0Q=!QL0AmaVSjxzE;LX<2AVZAg!1JUi}LcgB0OP8aW)e>=V>>!?X-
z1V{4?+n1HsDi=EzM>F1D!O?r?q+mZ7?^^~4t7X20Z%rLfj|fd&f~V^?^L4{r+o5~5
zBZBS7-J@^ZJ9=6;dOBl!E50jRQN<507}HLG@Z$Z;cIV};`7VBYDzNbKjV)hpzqUPN
z?}Rp;ZtM=trjIQAY^k>WEB4mKn-}joUybisc6#^@el*>?5W45woFua@1YZR|J9A}Z
zVI)naJ3b8wuC}D|zO#~Vn13^6pZ6_0T$lIE@8SDW_SCtn?uCQtT|#yHVtvNZ`A|tZ
zUwrVCdbPs&;$sZ~<0;d^`i$enhgzj`+hgi!6gm}9=$}SmPy+@1Gzy~zC`?bIFl(LL
zR+WU+ojmuEZdFaV+QA{LSO;^Sxw=kpzW`9B|K`A*9m3WFg8M+cKkI2o4GEr2i<D5g
zJ-#2|dHsq0<VpT~djCDT>)}Si)(y>2)sjQ0xey!~J_~OFMU*^{Gk4%%69l?5urv8K
zlop__f{BS~aCAMFWXQ2r&<KkC#LodODff<yK`|<-KyS`cfXh*lzdECk=1BB53okgu
zmQWdt;C*fJWw#vM1@M(Zg3{n6vS7%T`*{V7t&Gc8bStCEXZ4iOuIZzkTllO#RI)zM
zby^ZQRl)gN3*I4o2!{fArv%tejb;z?Licb<kU8(=>kH5tr+fx~`T8Qi>goK9mLqRa
z*K>dcfOdG~LrOrzbcfggj2l0QNtVeG$fBY`K%$8OJG6HQuuG5$c=`rr^3XMepy`n%
zfMq$%o(GyR;>bZ}7)P3|T62}HMaixq4%9xNWcO)DmUfi`z*uzWc@;$~!E1mAwUG(-
zO(@3}4?Bobr%)6^5eB@l0i?$;m~VUpu26J+vZo;e`0Ljw{TmcrKv4-0b{v&`f+9Sp
zG60xy&8*np0xfDS+yF=QZ!scku+HsF?EIjI@A$@0y`-vMGE`?P*IlVzs1{VNSbzNN
zvel6sOjTs88)Eyj277W;Fw~`bzcDl|shXAyO<8LtKPXsR;7+nQFB|3!S)Dbxoj*7K
z(h^m_Y_iXdCC0L5=Ug-qeXLbkHL-o58lm`9;uNCXxkS|>s)@uzk;<fr?ExyI?H*k%
z(AE6$4BZ&pU4Ygqd555?%~GbMj^CDgF-uvJt&qdmzCQy%TJx2*g|;-A@oXpo*WSEW
z(<aokrTv+j7vvmSyEALA`OZuMs%9f-Cp-}ZmkbR{ss^kK*I@hw6zzAgf*9W~qx59x
z8A8p=Q4~-!P)nfjqUxt3{OA~iT0v5a!;eDx<>-Dvg}_fG#-M*KLq@40`VV-3no;Jx
z2%tFuG&(>ow45%lNRde&)q|4Oa`1kDa|Tc}#T<=kfr?XN#f`53R?PuIkAG|+?@yUm
zY0%d?XxGT;8MXAYnOTr)@bF<35w<Ad8i3}Y-Vt)BL1O|+$PX!cApWpkMSS=s{7ry=
zr2!p~drX)79_-p61tNJmXCUR(h${3BEIXd)P)f%Wc^_U&>B+-K5*<3}T;gLIg{-KP
zE=*)%E5SWr-$yj>qUaZ>nj8_8;0&-y$b^w<FSWKMyV@{4iR^uh*|VPm*&h-8-ywoC
zYp$4kC-DxL&*nOKES2R_9fG+L%wnSroi8xa`j;x(zWT|nw{E`m^^SW3r-Xr1ca5jP
z^n_QrlfV2~T$yz^<GN)#V9$Ji%Kxps6)ZMqEgw$pN_SlC=c9tN4H<+Ucyrb9FAI(h
z@!eUVw(}!=tpL=0S&KdChX>xBg1ISe{l>f@YpLXq%)`;dhTCsWg2m>pN!6$PSDOTP
zD_CN#_M|dfRhx1ybf+Egj+>;iE$vB7GR*Hv)i3N#a^F}QA8H9#?L#Bs@Pb8RS%;8r
zTkN287Ln1B56I`lM#y7Gz;7u@xSR`Tt(=Jg@=L-?m;A>_s(fR`FZ>uO*Gp9OjP}4N
z`9bZeix)em<`7z)JJF|M98pbF8>OPUNCCNqQ;(#Z;*{5OMo|=<3jGKfHE;%yY|WvS
z7z`Zz=V`_dR}a2W08)l~58oQ1Arb@^8NBPDuLGWC1`#p(#RoHq9dCRg;HMBTExn{P
z0tJ3ml5U+|lzk0zfg9?BA1$2mN$x9s#)qBIsSs3%q)#;Fem@YJj!aEQL@hX-)8mnF
z7+uM7DbIP1(!fG28w^D9Z&U0d&}QH-JOdHjwN?jQENfm|wteNiRdciEF7-;R_bD~a
zTNiupY`EKeP*63*cE`Jt2U7LO<lYQF3UJ=m-l_h2HsctK9bBaeohun#RjbUJ*xpqO
zLEB@8u%y8X{tgD=RpM)Xg@D7#-b4jfNlm-~Y0)grdGk2@v}PK9Wg$}e6vjV9<>*KR
z!32}xNbuqmn|s`PBRCm`iN6gk;LBcAq9s&Erl-b((vEzNs?cJH25A|6!=Z78T|mYA
zP_!4-Q9TnOW_mpMGK<s$lKk*dh*y;)N&bbP|BEpGH&K0`)V}Ar<XKg8lCP04UGTv+
z&2L&Y;;bp3HRG%$pS9wwEuXdHtb+g#`gG#-U!5rXNJ%K@T&v?`C27oR>G!xx+^Q0#
z>zclxuhLR_TlcN;o8wY?;P8L;{Cf{h-&gD3JALW&BQ?;kZX*<wG|X;tJB-q5zf8~5
zt45SF<#K;DLoU}Xq#n+a>&ZsG>B^>sO{)YX7kA;$ou)@9_pqO|kT(9sD?JN6s{|w$
zowurQR^#NI;J=Ok>o`s>{WKtbC&Tw9XNAexM~L>(77uBE*h82bGN#5$2E69~2cYn>
A)Bpeg

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_48845.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_48845.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3a14c2dc9fd02010dcdbfc2164a11ceb9de224cd
GIT binary patch
literal 10510
zcmb_CYiv_jn)mv7{Y-2pF$oDIkU#=?G>{P5LP7`-AP@*JghE=^@pXdpa&oUjz#LD_
zs1<hGoj9FYVY(w>s*x}Ssi7LFL8{bj|13MZ()y0kB)ZE=NYg+3GXv5-{_K9|T-$Nd
z8&W!Zq?~&m-}jyGob#RU<@}4uq^F>q8~O5L*LsTj3+`k}e!B7EiISpjP%OpLBh-26
zOP{AnUoomYuc9dh<)()Sr3|w4CF92BW4OmESS71s)vSiq{!Yy@EOTFX4_3kD6*%gj
zfun?#UVk0+YvSmC#(wm$#_RHiaaQ4NP&-JmhA-&*#(N6sB;iiXQY*J+O>Wgt=5BK)
zSo135d8>@)uQG0tA0N=O)(=(p(ko`Z=XE-Y-N@S9)KEbVGwCK<u*!JhD&s|~jN9D?
zcAfm(fRQc!P<`GAT$IQ|uoAXOe)e@nS$aTK40{{Uu<Kz>^DEX|ZHJ}u>!o>=Jw-VA
zGFUB-EoV1;NT1J#7nYwrf6EoRrs5es@9t+b)X(<eDu}CcTrp79s73ARlgEynade5s
z{l`vpbU98RIe*Y`d|9u1Sq~sPPo4P1$u#6M6{e#Q^<$Hx4&LV+bn~JPx2K%kIR6Yw
zY>iT+kBfA-NOu9C*5w@=@C@>za@c)^)4@E46%1#<6;>%6=FGJYs!YK^Sc$yYr^O1(
zhqpt@Q2Ie+`uNMz_tNu$b!$K>vXI3&ka$BY3Q{9m=J5qe)_~QZf-LO%HDI-<Fbi9X
z3X$Efrl>#}Dnjc?YXe$`HuzzefsJS*Dk5X$J~#!bpb}K>htoqvSt=E%9B?Z98jA7*
zP+$|G06iGPbT*?+$cE|UaE1?jMPccs9TPg0XfrDKNqE`a6TB)^j0%4eUiKsi-WF7e
z)WewLt*8oVNUIuAs1nQ*^^t<51{C<gAqLY%Tkt3zPmk*GD5gVb)gW4eSi)nK_%x87
zU{|fcHY~&5mUB`vrV!as!GOY-J-;Ctvv^;Xy`SyAybLHy=TMfDIxQ;8;AOrCs0jV;
zFX2>bQ7tMX+^5eM?=**={GBd8<2qD_wB%&#b1-F02&zF_SDbtO@-y?pn`71YH5p?c
zXh3z#F@D;K2i{nN6B@mNcZ$gROZSPYW%!|U_-S0p53-W?umkNtW?3o7%Sb_BC&1*(
z!KC+O$wD@*!MzggB;4;{X^g|t!_`o0bNFmtgMtb*$xz7M>8_PK1uo(Jv*e`&TF?q<
zUpBiNHKG<j=v!8YZxro9yO(-c(*)i`Z=z<*`;aXo$4g(-AZP5eTJ|lpJ!f}COL&<U
zYCvygB;9X<)wYA=l_BXh<9<zq{`8uPdVL+XTo&;O2Ht*sjkZF@FqJ(&dKog37}$#x
z=xt=o$O+nmOqq6|71>z@mIE%=3gz0r^zoopv>oleug|<On!1wv;!858xb&67s4;YN
zp!z5dTT~94k{Vi6v%V|i?!gQum}%9hlOGn<Uf)GGmmW{Gac~FJGpxXBXby8&V-^*@
z5m7(Rc?UV?sKdjGDi`ayBq~QeW1_~%ImZUwqT27~yu7F#81XuNJ9mg`X;=ka7Vy2C
z9Y~2v*6S11JapZn-s$s>dRz`C%ht4sYNun|$BF8G>Ej|FO+Qb*+J65yZg3VL!dY>J
zB~#S#KF-6s9nR6E=5V&zpVJ)6j=Gj$U1Op?O`#tSVyQhQ8ZzVl@!{MKU<`8J$#Dno
zfeo+b*@((<I3+by4!`6n;U+AMohIA_b}~&^ci1uR<{TcMn-lXh!=5n*Sx980^?;sX
zz{BxAf<G!6m)HQpWU2HA?!-GVz{9BY9TT;rKm3NM!55Av$QNH8K2=`SkW&YD&FON9
zG>C+Uz3doHgAI$c6GLDk_<lTNK9L?2wQx6Nh{2abT8e%k0X<R6U-S(4fI_-4hVd>r
zM?_V>V*sWJKX4K01~5Vxa)}yp?>yfIw_E<VmH#=>Fy-Zj`EjSq-Eh(A8g}|FddKR(
zc^&gL@SLl`=N=tzfL;S^sL3(v^o>rA)Q?|rz>ovP%I6((xV#`-O}lqDHN%8xl3*Oe
zZf?vy!o3eX;-|$whgTM)UcN;cOw)DYx+tC0mjpYW7|qki!^fi)Nn>g7;1BuM8`>Fd
zl#cF6=2r)gJXxc^Xeo<n1<Tgp(Wmy!F^^zxNT>=H^Q?)YEkfRw;NeAUNwiO})&#qr
z*oq=oVs8uf`dMSrwl{ce(P)qEjFk%O>jYzc@Zh2;KVjP}m^R0ag0U%h@Ttif=@U#9
zzu$l7$n7I>=WJ=RvQ;p(1`jQ+K4Z2;Mg;Sw-=Dhk&h2;N6SK9+sy4yg7VKO!*&@#H
zd5oNHVEO}}_rz4u-WhLPCloc#cFrC6zGALZXgV-|MQA!H6rB`IJ<@tppHIXpqf>%?
zYrIjg*Ukd`n{$WeoBn8-Z+Up)kw@6mD-`t#rgOnVKj@9q)#2*Mu~==w*6;`J8~+3U
zWBq<OX;`uGxBWK;X9lCrSV^*|cEMB^q8IZmk)t!_SYf<WsAv}Qo4-|jr+cWIubA&k
z?mi{tp9-lLEk#kwOmRqqFRL@$895Xy`jU<}#kIFL&hDD4{GOiM`k+my*#BtrV`F!S
zermOUPDh)f+L`)TyI`$~7YmjhvuCC4J#fJ8nokOrlRz(hz3Q0era6B0>-JgSZ0B9a
z+@*Q;kL~k=4?hs<x)W!6ALpM7sh=7xpH)Q8M7D;zqeFtR8aTJwB15pmu6X6wbbRaW
zw%PN-<~G6F7Sb--3L;l$+F}FoGha8xdvAMZCxk7#=emTdPQlh0VxE}trhCJ^k+ac3
zp|C369(UgDm~Fg!c&_8IX<tb3#GF4p7#@ra#u%Zf8ZOdum!Easy*xMZ*xVjcKDDj;
z+!8$ywa>J|{%looi(uV`7cGufenCgK!ood*ZA-jDux^K8t3BExSU1I7f~6+T&ko-G
z<-AR(KOp2Egrm(bj4EdI(;tLCh)&#^x;d51+Zs|mWelHk)0e`RBF<>RCm#sRhLCcR
zF-NvVuL#y^fvNsjld7T2^{HAaui(cb_dPw|G_Mt^4h!bPAbWCBIj{QOnFC_7ebyfF
zMLNTd=%pC@WqWM!<_ChQUJ|}uShcWPFjdD}X5SIEr(c2A9I5yfdcx?ZnJ^P6irQkk
z{>*Iq0s5w}DKZds#WjCs8eYK5r$qX)sGXQ{dj>E1L=Eq9jzDCrnINW+Yry~-&h4Az
z#$4b`WeawSNT_=bZ1i>Jy6y&rsG)4Yn}wq?aXzm&O8trk7;Mv5ls*{ym<gznLT;9&
zaRBwP&X-+(2;9V#CCr3%0}7xo6HvgYOh9yBk#SH0nh+BLY*zUp6VUpw^FRvHlF*HU
zuuKDvkrJ;VzXOR!n9BxD85-cCsxpq{D)ZSy0HW8xm!Dt4*Q|jrKfi>pSOZ^vehFW>
z2EP3K629tQ+F7S5q&W>~pKjv)-Bn1Qmxgs;^0?ftTrtC<fRSF{$oB6QYh_)+AcE3m
zW&HOXPhUnf!yr;DiQqHv*dK;5B}t<xfJs$%jt_;U54=*1WPG_Y+*OLI;|I^QFFAfZ
zemUjAAm@Ou$m|($j`p+8R{!?2ac12Ulg=?8cxTvAX>#y8>i3Lz;broz(2#&VfXd_N
z`Cmcm31gl%gbfkU647qKzCFp*-oNzK)w@^c8t2&gR-yG&vf;GAoL*#%p?AW0&(+Fe
z4d(=0;$YV>qRGR9p8zWkPI@Q7LE<ku$H5&27uR)BRD+M<yFzY&!>baf0W<}1TWj=O
zKOS@8ip7;1S43~n4pHfy^ogoLaBy>WkKba(FWR?HI)vg?x6WMx@OR;l|4*p?J4mI>
zl+iTZ7H)fNC{3tJ6Nb`7gK@eg+;Z(eust{ds(9KMHb#2FdBOH4`n>7w;q8%$Xhmco
z)_$k+cIRySH-{e_eyrac?0BhC8a2TKFBwX0jZ_LM`y!(YwM06wHrL>GW5`KNjWaw1
zU7|}ZpBN%NH_pwRi#mUEVUfw3HiylTi6m1TZMoHYvo&6kTwlA$7^d}MeWdXdQ-r_a
zpYg{keiOiaVdd*gGV7vSZq?nai_^)HZL1DjU)uC)O{$18<^_+E+Y+^smgZf#f{Gsi
z(Zq46SJT42EXI&b0w<%N0t(Q;GP)J(=YTSxLMlX)5S^q0c<oVm8X5f#x?M4ZV~G`o
zRU$g`bO?Q%KV4DquPTsQNb@K?Pht(Sns^C87FGlLS&hSfR_h1)0WDG+C`8(F8Y#o`
z5Dvvw6qaV03?~7`hfkIixnDBCCXiL7l`^Ne7F9VbnR7olGF(wIlmm(!eq?^FkiWgO
zZIZoNmi!t3NfbEy93JFS9*QBEP#=Q)v^)iLNQWTZNs^xUw>jNMN-4<+2^~<_e&BZ*
zjOxcQticcGoq?2-CZt3v)`+>y-jNPzSAzs;&4C<(-xpVwj3j`>F#iu!7^HjEDhO7A
zgs=*XhDl0p_$#{0M<;n-dB3|H(h(ls(?8-a@4r&M6d6DJUns;3o&m$6WIYga4!hms
z&`9Sy>i2Otr^4ZcD0dN8_}xe;6Ejzd+vB*Zz?By&QFY1Vp5iv(rgGGI84?}d$uS7_
zU0__sMfD_Do!wkHo>oJ1=MJLxMg5YA0JT2_(`h|FMKT#Ary;7Qa7G1c=Vi$r5HcEw
zV29l-pR4-I%O%xsT4wCH>p=G^{P7P!YJwD2v7k$T+k9j1%-$qZ5o}+s?G46|KinGa
z`IBKoLe-Hd??^&z*nriwCaei@k++h}1_`M-+#G?JF4UYfRK=Wvp*nZ~(~=uDTO((}
z!_hMkV}hG)wuXKYIU9a&!MI5<Zb}*}7mV8k<F<HXygzAdgus|F5&PQ{EtokMD-sH}
zCYkC5re0v`Aw1cXWSSS4-2$`w+rsbGKU|+=4uWAaS*I_AFGMZ3>^JQ(%gvHl&z;`e
zz44yg=Vu#lJH9>mUDv~|#L1q8ljnq!=N_Bh0X9_n(8OmJu<{2Y6Yysb`=cE~-bO)H
zzWOADK;|kzRfU5Eo3vuI9o9RPG;Ll!R&w)1(gaawi(qO=n%;y-vu%1PJQTG60-iM2
zE|^;cb4$|vCPd^0%Yva)Fq9?@8)BNcI_^stb|zFiCAR|KxhvPuWQ|k|E){;tr@@#|
zLjbk15L2TLfI3Gi>}i2JzNCV4DW(zONol}smN8mDUnUd)r$0>vlzY|`p{$F3fO@x&
zC@KoFxnRy9>kJ$R^hg&lAU&)kYm!jbc*&U?q|YdD;yWt-MjEhl#2^DpA=O7pN#PDC
z_Q2?;??J|yk)tku)~p))u&jn~mE8d-CvCT+L5MEF$Io5C6}HckR$+)5k+jML9<}3&
zIER~X3qd97+?U6lW30o;*BB*j!Q#1cToM0Jwcq38MMc*{PBxU89FtUqNcW2>?EQ*b
z&O1eNbNC0VjNgdAlKL=67{pWNA^`Gh_~ZW-Do`E<BfN2=4JWa#9SrV=v;?CMoeAsU
z0p=A<UkzW4HbT1P(j9ag&2@g){jmFSURUriPR2C-`T|bB*rSaz#+Xvb+Z<9sN&^xG
zRW<QLUv=H>np4cRCu>_5Y7YywhaVLrYrBQ2?nKYog`NvS&xJ(adx`g*$)5g&o)MvE
zBr!UX?BRqeF2qFak+NuIr0feiVX62Nvni#e%*82&G8Rnl4eyQGZ<XCFi%kf{HSu<#
zxGp}CG&CkujpSXqvQGhahtqbr|KcT7<Vh)C9m>Fuk~GA)xjzBQJgEE1Y*egTgC2N%
zuSHLt^MkM&DVKh1>;pamnt(RI1a!Wv4+-9;23t&|yqAvr1MuG`NbjNHDH=dbHQgMZ
zfK2`*>#R{o@`oi6lKw=%3_dsHnq5xb?P#n~6LBRueHPNmB*)*li<lb{Vt|lhcW}v+
z5gObHJoa~Z8Egt2{g5+ukR*v{?04WKiDTRg6C960OzE5}L_OmW_-HvdKRM##d3nh#
zkl6EboZIEgM0(sm0HGNC@%YUJsi&5L;L#-mLqmFR*B=VMDSJ@%m}v{PzhY*~&e`_)
zZI8Dc7gU>r2O+LG7OQw^qzdaHUs^b)oiBalPZpdH9#0u5T~Q>EQmgVb!Om1ZWwZsm
ziM+u%;sdTxa#+7Uqrk!7euoFF($gP?wwNdFxqbwGLYaijw8&&y9Co-w#yRQp`X<NR
zqNaoVM}?>y^7up@I1{`NR0NlfC(pRYcrPa^@nPbS55mvM@e#LlLHJ#hlMxNlnK}l&
zBkWyDGB@ckdeqBKj<{R7H~@pvruaLcu~JH!rvE}2|D7`Z2UVKVPzp=1==#QM8=o?T
zAq|emVimKe9@!G_y`SKCp~#n_sQro#1$<5@PAcGW>3S54KO5Hi8gyR=_I3Du9lEcE
zP318r&0npQZr#g5gF=y7M=6-=CD%$)ibFL0Myi0a72c?wsZAA<Zc(OdC*5_KZZYYW
zWV-7~x0K4aPNOjTYZ>moP*Muxi(<S+37H1Jz+Up)u%6Ca)Ecj&Ybd3JHstB2`@(%G
zHMHSsp?55NETzRgCezd5o}RK4q%bxJyT)+6?^@pr6ZD?%vCvJ?=39Gi?nzP5oIOoG
z^UaS6|E=_&OB20)3%xF(*OhP&Ex0EH_e6r9N*tLIIxfG!;Lo?{=pE6*TctNkQxr7g
zlV72`h&1O9{?oC4JVu&{_ngvqWMX0DvM>U;0Q;h{gtk53L*;Ewnk%mvh#>zT`PlY5

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_490790.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_490790.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..86ff14674c810652d38ecc0672550755cfb0b971
GIT binary patch
literal 10687
zcmb_CTTmOvmNR;eUI>YY%*%kmHrU1(jE%v7gCE$5ZDRZmCZ&}%;vqnSnZd-Qm6B7r
z70FJO#LeA{oV`^R+0?ZhQyaXMs^HyQWp94g`}ojA)I~Mx-E!6SkN1mQ`(t-McK7s*
z1_>gJZ+4r~O!w(?PM_{Rea`7K{FBL~C!iEtzaIRzVuJVsZpg)ys=WNIf*@uHnxM%M
zqE~v8y`<Pyj4FFoB%vT&q+8@96H9LqZd?t+Em{G8N?Jv$f1{!`v}R6wU%4TLlBWJ7
z3MH+}PBEYyAZY!UByAWV=Zx~mFoT>dlA2s9cWxGV&N^`OI`G_e;Fj$0em!mdM0Gzk
zu>9`T=?Ho=o#!Il`B`MjUk6^W4!m$3xXoptH)ZeZH_}C)sC$jCkpiguRdg|6nM7$z
zvU8$;hE)9&T?%}2=yJO36SCI~`ej~Oo80SUZN&?`EZr~s@O<$Weo*kJRSCw!r`|ns
z(thsk-edODt6JTwS|<hL@w4w<IFrJBp~B<}LGPIuwX>XKz{LtWT%U9>W9*9xJOV)i
zic%m?3uL!Io)pwh`xwUnMC<f=`iBNsK{@QYE|?e>>*DO3*FNQ9yo?4&87+Qb2^k$c
z1ns#qr`|qqKk3{AExF(xd^leA1L6$9!Dv!(!?9djXmU<*KZW7jv;nR%1Ggvx7teW3
zL28tDKQ*4OcmrGw%3r}PL4~MfN=*>HQnU$`P5}>J87f1CB5X5<S3oSN7;T;c6M_m?
zXv@)Npedh%rJ4d9Uxmm4S^&d*Dp3W>!+bL2!Hc=3&}3S6%m=A4N8c7yiSplwdSx~u
zwML|_LPe+mQzP3O@hFh+<hhCSsYY9ndKk}SE2=^ov9=9WBdu85o-wN|rWNI({C)+u
zGFNvNGdrh}$Me;2W*L<xGdO44Yb{zMt<2>p5mvl!0eNdtZRYGzwK$(0Xh%x+orpkN
zz(EkdP|!rbq6n`#h1W@3!5z2<_oaGta*uCUhGbccF4~2*uHm|KHLoeqeOf)Ik&U{q
z4v|P4FD(hJ#oB}P@~Eh4H4kKvdwjb$kY_g%$4~P{+g9@u<smcVsfRVPirTveDbSuZ
zvoXpe|3oH}+~aFN%Ae5X$h~XnQgb!S{l3NxX4LRTGs;+Dcb=?Q>G$ika>YLF-9VPc
zH<BfDb(>(XwfKC}qPF?=p?b7$^%_rsJ*9PcUwr$stX7(~88xBi4D17Fzq=qkN4X}u
zA9Ub#y`p8?i+5pz^(vJ4rr#^;)q-j=RxHy;q>xeF&*zR><Ws%@k1TdZmT(F}Mqf=>
z@mao#_<6S3*ZT9UvhN^Lq1M$qjdEqJM+aA*N@S6Hd~K*zvcYR;4@&lUHJzw6?Z`$e
zhmV5K-k-4>#p(T$Yp4y?xXa{L`kiq)UbEY%eNHc1F_O5R>Ekx1dC9f^-?3^9-3*vW
zqLvg?jt_>|7dWDThMMNCkGTfqK_M<ujXKz2LG9%RT?_--O)%J1y}-VvmSjrsD_2l(
zBZ7X6@eVMKQTq@rsGRiBH9<K#<PkIu#^D)o32Gb@v4XaL#OvVpHVSG9tb!&D^j<+N
z_M{LR_6thd%L#f1=N%n#+8s0voLDTJpk_HQ<Erft)F0q5Owf!^N^e#S%LL8T7;ZCG
zEG(9j!H$LjuSN(umScu!m;Hm$bahzJr=a7LnRU+!oOKRl)YI^(u{3;Y%(KGMnda^U
z>;c9*F=l6nU<JVVtc?j7tRjMP43>?8hn*d>4@(g!ZUHA8jN+<C$d#)@9=pg?pd{Wv
zYv><hSWZM76^!X2frDCNB)(uny#4(wK&7|b9u_osqcL2316+I$3rdI6DJX{b2szFP
zhH-f~yU1Wz&`JnEDeeP{_v7jaz@`0Q#f`xL^#JI^2ZC1GAJ745gIGbq0_UkQLBkFX
z^>aWl<l&m^lY$NqQXs7e0vt8%8iy{eI5;eDs^SqS?*vSnV_1O_1%f8q0ZUr(e=7fV
zrhd}P46|bnr>lO@;T(2wgI-S^Tn{{4J<B-jIoIe|J+$gY0Y@F&=)}nGvFmmK*+IuR
zugC86f~GaK>}hV<13iLCLb4CL7>{d&p+QC*`LkURq4|kdjfBAzsteXddKUHN{v%J#
zmXI&#i&ie0tNkaQ=UQj9)7l6bX-nkR_}_lIrk%7^MTdA>eO#5FG+X0^+j#Rf|B0lv
zIMT;kYyBsm<`ssoM-TG0-SfsoUc3KP(rAn9jh6Byb-Z!6|5(zL8_%oaO;s@?Z*1}(
zdzO<I9^rGge0BEjd$aGw#^-k>wjSbh4n1z*O-KD*$ql+q1rZ}}s*X<brrqCKzbkrB
zw9v3H^5hcVaX!&-fj3?7cRe%Zg&o0O;PsQrbG<QC6RZiJitdW%)ql%;H}zm@QGeKf
z<T(u6`735-a(Xf{9^Ex><F_10*jkoyS_6t?QAuQkFWM2i#1}QqU*n6~135`+MYMsp
zRtL1tEQOK6FUe?ARC~KT)&eNJrD^`7$MipTJ|5tkyW>5*d~+{v=?!S)rPV|)e%%@4
zV#jCg^OFnQ_dN@feDiUB>+vV-V(z(s`k8f8r2FfJ7#(ZoOZU!?^Q8wC-r-BScx%^_
z!uXl<KU};NKXd6H%HvmD{M#<x>I!I|TJmOW)3%5$I{EeZe06M+-`>2i?Q#D1<Bx3*
z>-p_($9v8$TFwPD%NhbiZ{;m@0d*3_+4rR-dNgXg-4TNk_Vd>L3x$tW-#Z>_AC^C9
z<y$WB)(Zh`cElC-PkQ*)?)ce0z6DgGFQ9#HGKVe&FNH5fn^Uu>+B@IBaQ^#-g-Z{-
zeATfh=N3&pOQ!R@>HOk_OG_8*`~`c$^k)IZ(+w$m7ESL46wgx2A0v57Z9s$N>-w@G
zN=KV-zsp;9##r9c2;hQ}$k8t=Bgd!h(Q&?@Cf3R4*9CORyn;y4^r5H|^jDnQ%&zHO
zpYM(~-)*05|I0(XwQ>F`Z#l4(+s5a%{qF3e-iN)3+!L@Zl;JZbbS-!-?3x*z9{de+
zXX^G;qHss-Si;=6WZuV{_kDZyJNE;3!raMIoi~-s4TSmNauZ?B&#LkM<LfCq^Z?D|
z7vs_D$Ruyu9;@YTdwKKT`GE!c`_6>{et*}KB7Xl_-h390Vy-PxIc@l&C#s5E;>}xQ
zw)uv8CG+&(bj}a(H66UU!++wLHYaTP_`|1^K4c1-!h=!eUHz<nuJN1Jd##Cz{R@|W
zPjx+qPAW)+H%0c|X}#V0)z!Q1S$CqOVS)NR)%g<42_cYRYR4yCLj!{x_)4c^#3ksl
z^R<t8!B#PC7)QgnxCzGN#1369*bj+mi2sJj;8WeF`WXTd?o_HlM#677Ag0OT8n9oA
zcZiQkM7}Ym;*BwtZ;VM~OO^D&JZ|cIYLE@bI%^8<^=WSEA@QN16*yeXm<{31T$vQ5
zJZ~S7PHMQbq$7g5pdK#n*w>3CTiz5_HcOa2r<4OipEjTi02f;I3FV{GS9?T>S8W0=
zy$ZM{YVlYw1Hz5Nn>B@2%VGOE{hF12as&G8{b_o|2K3qc)AY&>=(G2y>9rfsXYWtb
ztL~>Rxg>$K=ZIQu_Y15tV!(S(!Qj|m(9o`HLr#}7^F-i1#*{B{$p7bxjgogk5<!j~
z@1T4Y%eY`<(b1p+@WtecjF0scU`ouRUjdS;x-)`Ge1sup*GK^fQ-PaGL3R4r`Ob7C
z%;G~{;rBC6cneh9h-36B?dX`=nTk&!(3)^~I0#qmVr;`U?rt0Lf*oNypduj;11Z}K
zkN@x!PpO=cA!rD9hPg;LZ`+xmcFkS;=EHj*g3qTPckmr&6ZPkK>RggC2Hp#re^e`r
z!2AHMcmrYZOloxy?hiqv$__dp!q-Dul^YtE@J>Kb3BkT|P*6j-#a(A=F_{NHaQFm)
zqZrQD8kl|z!}k_u5I=_S16w*N>{pyT0P*ewH#WfussXqGWUPh(uvS9Fx89OgrD)x?
zU=ZNj;m4i=MfguY0lwO33hfK-yVV?a+-!@hY=O3<!5TUkJb0@;()oj-EUqex8_JS~
z+)zuf<<`MS<qw9ExT+*>C`lR$LLI@5grOud{)3?+uBwO|Dv}0cs5#ht<EX#WKb|z^
zg-!=g-#F$!93Y`5tO)l^Yi=Hls|o`LlawxG3>t6c_&cAPtf4ExE0M}bPo(gxiMzg8
z-$Ku$%MULvn!5a5uM|q7#((q`MX0UeYF=dn%0P4YSfn+24Obfi4$KQX7RxO|xM$|_
z^yP@-^D9Zp9LfpigvS$9QKb1!2LvFMiIQDO%7n)a_uMi^3htENE{!_=qC81im#88h
z5GxZ@X~ey>xt`x#KTjq$Hzq+tut#$ws7;Y=cj|7}#mGeQ4xo5t(Wy1d`GnExKP~En
zGxHQ++bVjbC_F`P1c0^02WP~MvDOqw3M*EhH6Qk8Yp`%r^aM(u3hXI~Q%g*zSc4w$
z3pim-is?iWpFN+NgK%9c?iC9!Lm>H+#UHq_imfU54C6nr-AX)0e>#y1>1&^I-8qp+
zwc;c2eB^I<8T{ePn`%xiTMVBDuvSvTX|y$1TBJo9EQybzHHbn~Hj65IKw3;-<MV|m
zNW{VXd^&E$W4iIpdrd(a1A%lHQ}#JNeFjDT8gyu8^k(Ci;s!}xz?FHzit6Omaoe)+
zOz&Nm<eJRIXF!H*8U<RB-X&v(eA!Y%N?I>!jVeQ5vWy9PQ~Fam=M48#lKM<sx!h0d
zWeJZG@5AhTImm>JC<jtl`d=ue^j0e2o<mECW;hp9u(m$aXGM^()2%ZrNx#!`(;@vE
zV(LKx!0uOqCo*-v_#Y^uK^IN?`C0|Tg7AWN*yS1n`<}`xEgu@N{CnMv+cV?sDah`(
z7@S6v@=K$*28sxYB?h}yL3M4&HOXAVRfPxgDg6^3CpYBvI7T3C0@)*#11Fl`>G%M$
z6<5J$K*GgC!)H41R%6U|OsED|wzrX~g1Y2CwnDAeEcp$r$b#O>3=Kfq0UVI%G{meC
z<W3wk<YOSUfyclv7zA<=9`7h~88dqi(~{$YV!U6_K(=7m1p`aT3w-ESJd0G3yo+g-
zgJnJkypQ0={uOu>KasRp@h#E+4mQb}peDeCTO(JeI}+3uf9GoFprrz>AAbY{;oj-Z
z(MsM@71Q&%jq|;H?xBGCsnHTT5j?SEEa#2oOU5eRSQYJzk+FuDW4>U)@}MZb{b0h_
z27bk8fk(z@VDBqoEbwbx!LBe|Z~|Qk<90|BWPw=1$AYJ!tFqdEEU-0H8?3#xGot48
zWxQ&0Qg0471vmQ-Kh@=gN`fU}SNI}K<w`<V2{7;?5I6kl*v!f4lTk8ycvcg$&KeT=
zyFfl`f@)f#nt7`Ecj`xmhlT_N?l7s-hYEv*VKUrss}vZde4ZuZxLp{v%x(Q<=e?Z^
zjz@zJ2NzAp{asHjh2imEZ-Of{l@s0)z7W0~=?q`~Vmy3hx<2ZPIcA4=>mHuk6Vxm#
z32X5)ogrik+QOEwd%8SYnb1}H4=1z143=<Xm<e>mRYg)9GYy;PTrn-sz>WdCq?b=%
zN7r*)qT5ly^+ZKWu0_MGxG{GoH(-Pd(jYar;vTa(A223a+z)&MmW_#)TX97+nPE)e
zF!(6=qDRq6F>j8)pr~*zJezxwod7rt3XBe!Ha++peYPD84Vl&9s8QM}>5yVW96i#m
zg9C0;HuGSrvR!>vLVMAH>o&jv*OhG~yyCJO6)y#A43uQF@X<|0v7)^aEfq6~q1E^y
zhO5}zFg5t$hlik>@UY_(F4vR`Vpps_Ys1#-7?#dklatIZF`Y)d&o>Clsj&tY?`4L4
zk!*`$!h@}l7`ijJ0pr*3WB(Z*e&U(Y8afp`l?o;)eV`|(fzVMphY-Jyf2F=_nl;V$
ze>eJIbP=Dp^bsnlOdXk$J@ZHS;^w8I4!)=(QS?@T3~UY5ge`%ZUv>s|-prBC5**Fm
zU~fbb=}ee5Ly}LQAF2=5N47*934MkCNYa!Ox){6|J{-|U0b^S%@0+rFW%J{S+7{l_
zvT$*!{WRZx`iUdaeug)mSu$MY4Hx5=F2{SXBn*9VRi6|qt{fMbofdxLk$VLd_+KW{
zr+oe03e=s1`*r3A_AG}k<3_I9fFH!0e-b}+I*Wj#!1Sm5K9Iww@o9Y&L{&INEEf3u
zrNKuIDer^2;^NcOYNQ_`al8WRsp)3$0>H<Y3EBa!SJXQkn!tA&(Zd-y7knXbI#`#z
zp;j$9RQwr+_DJ_C?1#kbO|4P7AK`-~DWOPDIt22n=t=EY1?^S4lv^@h7608u$}S0{
zT`;B6->LhS7XB+{VuWK^obSj`*9u8r^Ch9Y@M*!x$rn!Mw}2aiAB)ccD6S>n|IYK2
zp7un@a94Eyw*}voJt$kG4*5G@)3a^weCOjGi`!1~sw(hL&5%^Cd}SmGc8fkx`?&PU
zR3g9Ee|p(S=nBKWWwpwz@gHB#C5(CgZc)o%_3*ORDj6JVzaZdHGIue+A|3QGs0(Ik
z&bvq8Th|19BoHXM#^7&x0_B+CyxfGxC1{R_|1u;f-9wz9gNrW9xjq<UQuo>OE)VNv
z1SL+?As`fE1MwJ(OClJg#k3E2N9cQm<b9mt0BxgQdSb-Y!TdEe!EzJq-@<cQNs{Cr
z2;;vHrhg?$m-U3g;xGKP{6_gRsvw}jm$E3ka3tPyF7E2*3kTxd#4<q~Rvb~lDbgKP
zBr~wiZj2REyoT4ZR%O!sQBUYLCG(2IwXe*SLa}Tm6x651H;R`P$4T-q3GKWBoakN7
zliK-myFh9e%59s}-Xyn+q;@fplN;&__WiL$Y`;_z3ggQ>JW{@d08Y1|=|^=jX^j@#
zEuAf0CZM{Yeq?-T6syUtJMQ+)_AM&`oIG^&5qgNk`m-H%%b4offp(1h64!t1C?t!+
z7iRjV`<4l)#@LtmwcJQlZTnHFBi|<@>O02Uz!=wK7ryDc2Z*@-c;fHT-yx}<EG>U2
YBEPIICi8x5Bg|Eaoa!5})3AyE3uPAyC;$Ke

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_511041.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_511041.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6ab5871b441d8be54557b0dca944e6d49bca7bea
GIT binary patch
literal 11303
zcmc&aYfM{Ln)hD6eXqd}Fa$^lBoIgm1o9vdniTRNK%jx9&4ecPTzn0fhYi=4(74w#
z?o3y;+wR2f%q-5#NO4D%>P)f<sk%xcRSI2cHSFwa*SAIkx|@|EP5<N{opiO2KfB+#
z*VlF!leF1c?U8)X>-)ZQ&UeoFUdR7nG8r*Q;_Pq6e_nxMe?S!_S<;2a2^EGdU<}6K
zQ`oSa<HNXAC#F@yY8)dl7d|0TQjq0bYNwuTLp6qARE(O@Fj_|UD-EM(^fwJRU=);|
zf};kk?~0>(E}ZP#jEweM%?*vCO0S3fRyan0&yMr$cwhvK@5%!-&L%ix`Z0{5evRKW
z-5_M{!#)<srQ9!5;8IVRb6eyxQ@BaHd6Ra_ChgYz?W0D<_Kx~SdSE3VHZavpkqetB
z$}^*4Xt(ESw{HSpvI%^ti(<Cq#~G!VvUfDYCT0gy4iIo}HYNtJN7YOPKotVi)=kFP
zwh4CSChdr-p4kpm&CE`w>K%O80=LDI;fwV$USIPFO=jQ`4&O&Fp-&Kfwxf?8KJ^+=
z_sW^mJ!c(#BGq;J<zs!0S9*p|IQpNc4Lnf;$nK$+Up<qCe56Kn2+`=7n|Am(dd%e$
z4X8X%vopR&=p;Qtm$_ag;{75%AmV)ht#f)kqwX=EsG4+LW)0BKB8kD0=!0Ygi>Bu+
zg^!X@10wXeSBE4Jht?#eiS%hz>L_RMo5YPYM4<E;u&Nx`Ejh4gWg8N&;cd$82$Veo
zR?8P<V9TEYtK*CL62At+G8h%Soi9f%fvtQgzts<`3~b}K@ph@Lk^?Tti7(?T{lGom
zp26MDR|3v<zZS#%02HW_C_oL`5S?niink#;IkQ6i-H;eOyIP6P4!)W%`c`<El}mU#
z`7O%&z7_TcUPv@*c#PixdItLog26_KEihMJkEo$uz6SN6zI2a4=?T>GxZIn?W7LQX
zyitMScW%HYm7c(^91i8tX}pau8YQ?4-zM_tx0{;GzSMDr3Mhl;P|kPK{^Ud`RE}d2
z{2~v#Sf4{7k38mU|AZ^LNmw`NBb}mO1G}F=W7kIB@iGlOhsFyV`4?!|h!xnw?~ySB
zjZm^mr?BZ6W2^WkzChUtzJV{ylpCK|!`^4mQ3D-w2Dc%-`<6^gBS?!ZN1FLP00DP}
zkxo~jg-00K`ab>zzQqqBi!t~?!UXp7&HTQc`T>4Fe*oRb37fLl+5G7zMUhzi-si_f
zs|p<C>vDLKM>F!fpMM1Y;Pc}uXV`CoS=PY`P2Y50zOSgYmfxkcK5<V`->wM$!4K6K
zUl(Y7P6>ACIVD&dPw*6f=t=pLIYB1A?MVru^aR>B;_w=D2RFj=TGT3?r^9>+qnfM(
z6_~4w@>nr^JKxG5zG+nMGLBu&mFKy-GkpN_VbqfYEDVj+<D!~=)9quCj%AT@fffzJ
zU7m4`rO}a^S5MQvNm1kF#$7B6TY^1860II*%TQ(#32sU>&amDwmY#OF8By(I+?Pbv
zwA&+UX_oekxkQcM#d>|BZgk2^bNgCEjohq;Dg*dlQN?&UQRCyhtV=Y~oOjyobkGb_
z-yv#f#|+1cnh`m3N||=VC*`^k{|qXyR+tKlE+30dzG(1qtebH;=;>^6GE*GMDS9%k
z&Md6cBO22bMqugLvPUG9cK^&|ZUr#LSnu47!{>&zZf4zxsu^IA20jkIY%-xD42-NN
zRD|g$#Yxeu6x|+&L|oL%V*m|u)Xn-h31?cQvO@zgiF`VPE%1(x`k+<LJt8I5Cz0L8
za<D;&eLhhuvDYV(w9`2^JvRkgz>4^!h|`GkZnR|{*xNTn&7_nW(V1{uqNiXg>4n4W
zCq=E#Nl&?aY&F^i-H5|C?jGetJ?xTPQUkI5a2#e(2K~~35OJrdlcoiGkS@T)rLFc!
zr_9#@^tS&m(tn+4n)kAkz8Tu-Y8t1VlQcK(_3Q!D)x$OUSZ5RGnx1KbT9ezu?RQMm
z95A7A=CT8t9B`I6ugBr^!ihT2+`M;xGxUfi8OSl|Vm+=Y_9Dy>T_NA!!EFj+-yFn9
z)0I8pJ+Z+RV`cEz1FGOkf4Dz3yFyh3PdqSN7j#iw43BlB%yq$@r_>X>g!1N;xh2^1
zuw+NvEtE7R)kSNC)}*~wD69>hTC<kLE(q58VBZ6qJ#smISSV>+q*AsQgQwT1lGwg@
zg;2gnpc;cG)=cK4ZHHjmk)Q->fAGXZlQnWdFjalr^-0f1JqdcTBDM2~U^)^!xwd(a
ztu%Hz(JEB52)2EnjofkHb}!*e9m%2d!m;zIgTsPtICvTne(e{XF)r2}b;K_V#d`(Q
z-o=h3_21G<I$__b<u+m8S;2Hx9*F;SXPk?73ndMUxKPr(cwVr>ERHVKE*Jf7cDdw>
zrsUa+Lf1vXbTN4HD{Ik0U9=9S(2y)|{hYn;zvo}E_6GaDf+3rKHnK1l9gETNibb7J
z)ta&&S~azWaK!rVaChWnydlATI+&Ojs$1_?3Dt*}j;&Cqpg+AC+W6F`&5O)pt5AFR
zE-lm^UB*|;y&=s*vpvH7VlXlvEevVa%oV>FjH_ek1al44?By{!>JAwn7MH~)gyOo8
z@qxv*P!cVP+2gwtexbTe*wS|Q#8R)&F(7OiNWSVwj!mpsCPP|fR2{&*B~-TyrR{fJ
zOSAVTmivSk&k3dHl5dPBXJ%K-EX<&2ORO{66SqW<hIDH%)L`^{yej%~NdM4W94isb
z+vCTC!d)Ttn#CTg6D-wnr(mv!>DfwRHPMb$>kh%X1Gc&Mqu!LYX|eWB{q6eCyYBbi
z>rJ(E3)b$C?xEiHGj`!p^iqtz#$07SZuzABqxRIc#zoy7<89;TE%)2+wWs!;OqFyC
z`tA_<P+t&fh?fY~x<s2`-7o0(hqP<Z))C(&*y<C5f~|3}Ua%e(^oQTmuJ6GL+Sm7D
zhN58S!vb4mN+_uQc<7V!ADvIkE;giUjtT`wgWYSJ_rTtskC*($k~p3y5vrPn;%33r
zyx6m(TUP&$Ue*aOoe}n*5lm;`JW;j}J0o1ATc9dpvjVj}elBtL)8@oEq2|C{T&QUi
z$oAmzhq{7D)sOfGdgB#+SRb*+Eb*e>>ubM)x+!dmjKT?Gey@MwG2CWM#NQNkv-2+Z
z*f_@yp$6@&q|DehslvLrIo9I@TQQT6-j=-9-+_{SSO2bI0pqcWOn0`x;F8WS<nhgW
zeMB$zBOLIN!rqV=*(1X9_NkD!1lAPThG>)w9jI?iO8g)LlV_|8(Dt4_pyi3YqiN7+
z?-_VaurceUPUP_~!}_pclz{c*^Q^GEzLZw6b^@A^J_Oi|?j3zVm-VZ7o#Yu};Pq+1
zW>cXtcrA>fL@;v}%&0OJcm94&rXPO>e*XR}zUCSD`TMi@#53^o_h<1{&%n>$pT$?-
zNP9Cl#%o@|>h%LGaycLUHzdh^luSm+c)U)CTE=zB?R2qdE1a1?4OGz8K!hG6N9gCo
zv%)xGIP46Ls3?v@j$4!GV20r^$rnL^M@Jsoqzf=gz{J%9IR+UzlVH?pWu?wmqN++%
z_n$c1nYAK)=>BdG2H6Xci@Gr|CLN<5|L(NPXI!&$w1)#r&mox$zLv(0DKA()z9Wrk
zSY$x^+TrsbLF|FqzCcFF7-+=!fKa(FW#0eUr8{rkeru_DiCI1(oE%QIzAl(wPhO;x
zBa_0#sbt}FQa{bU0qFGxQSD*eV9xo*=^2-3a{Is#fw9NtymLNL19qBoT-1Q|!d+%Z
z0YTaT$r=G;OtOOOjjRK8d>?&~2xDpVX@d_~g>&4@94A@LERsSwJU};8F}YrPNoK{C
zO*z1_0FI0x-#*y={|sVlBz5Ir_+Vu4y~DBAYaLfR63t(hHzd^!NwNX;wT4?GEn(F6
z;?)-u7NPuw1TB;|eM#<3s`n<zy$I%L_~;5*kyKYC$%=<E&fCX>oxxd9Hdm-H6&VZ{
z20Pburr-}ASnLbsQBcQmOYF5o=dDxMPu=aj-+ixp#d18P{WmqP@!;QRF^x5{OHh}s
z=?$UQ$VsHLKyevD%^?~xNgY_;CnJLk--~`PM*sBnHGScgf^b1(Hl^PJGd*(kNTMoL
z-hhTjs)A1GOJlXy_FUbQz*A+rziYGg8=Fz1UAJSDHP|n0w}{U>a}PPXJd!T4L%c}R
zBe_=#I#E*Ox2#VxQXJuJND5>CX{0<6C?w?rL_o!>cwCBq5Krh1WZ!N`NZtZ0;PH4y
zP9y5b1=^4poKf9WE7vrj1}GH#-H<jwX?QiSL9rD^;|FNaKpGO`wWvISoY4(QS>Z$`
z>Xrq7S0}A9dOq36Aum!&`Cb+jy%5krR8pGJ|LZLDyndoYnQt~n`=P8cVBmH6VHjNo
z#>l0mJn%DL`~c`N(*8c3JFu519IzqX)Za*-vH;0#RXQ1orgB=2V;4`szEZqFj<oQU
z9M27yvMmsI1LSmj0bjrv{cyT@lOIlGppY+o{@vtBWmI{UqXcp_Kj?*s6PcfPzz-6g
zcZGxbpmKP%O<8p|&zvMPZ|1cVRoNb;1pAY|=My`WwrsAPao#wp0`*48dRbD*XF;{8
zkh;)Kx?D3*KzayL<4bG>WGn-p>x8T$ByE9&gcQ_~<3Cn*4jM#_<d?HksH|gMvg%RO
z)AXAVF+zbI4a7P;5Xo>((bF?*Eh6GUz-rKkheY)yw`-pDqE=~;ov2F#T@Xjm`DW)_
zF274ukJD45^%mBLz$9fvc%35Qc8cnGX`p#&ASs|As*%ktk#Nk51whF$??}&!5lyHw
zTQxYnQ;w0#9K1^56CyF?6^U`Ts0G)5(#41>(0D#%7%HkQlgk>;^n_|>KLp4(;ph8D
z*brH%9S9$IzcoU?*O640ggTJg(1msH8$b`43a*?BpL_dcuq#BYk*0_-d^ARXNmeG+
zl}WM^K^nq_NOfc+)+^X+6ULN&AGkzmJxRxlLI+c1ZSc6FIdfV}mdNq&>#^hD(jZ6P
z5;_q%5$<0lw+rO<6j{AW)(K=?!jkApkxi>)i$Jz~cHmC??e-LT1pJ+X!pP3>c&tV+
zRjyLC0#%!$>Q<>nhzfuQR-K{_tWt*r>d@!K_si~;rKsZ&8z?SY7>*9diFjA4cvo;>
zt*CUNC)yJmiC3qJYJ&Y=nTsWprVAkGk90TZZuzhKm#ThS_eI@`xeo#w$RCGwR{g{g
z!q-gY5Dl1x*_*0>F>)>5e045%N-)(xi?t|*M|Z`BqT9fYtgN|q`Re7H#kb0?m!&HA
zhYTN9MFwM4(bppNU+OE?4Oqd}bqXVkt~7=lW7gOZ5IUDK)~p(L3&!0y58OI@{cy_I
z8a%c}7DO})rl=`4k}_AVnrj7fEd*N<dy-^pQr#-6Tm8I4J{Rn}=op6J<4j8|D9RBX
zbVVNj6WsXC{5VN#sskEc12P1~;<ey?s5a_P4$+ZPKFteSPRqd<X$YkEHzbg-dHkuH
zs*HpMy_8R%KAmbt&VWAMn9!VLsi?@hfS$|f+)Q6uQh^*l0Bbk!`m{s^PYs#z0b>@2
z!Ikj<8U#{+<c%PKB`;NaPti#6a0=q?I)#eNQ=XJHfFzx_sj&}QK|&)g1J6KH;Q3Y#
z^EZLUPxC#mMWADJpf44OJpLl$L1y(hc)$7i^yeLi0KJ{j%Gq7X$bI5zz0$id{!|D!
zqq0AT3_97Bn@1(Ix3Zo<9Fdd-I1fk*NYY)F=s!SJNv!`6l_c4&b-g)5dl>dIYC+<%
zzJUEHDrat$B;nZ~Lz}3F*uEs5*>_M?Gmo4oHiE$a5;fo>Y#+*15MGx5V<3gMeLnQZ
zl#H~N3bM#1=RD{VOTHNUO91*A{CqvKz_yhy9El!z`!vX8{hGlN=?qr{yZ%%-e??iY
z^o9FkM6By$*C!JnP24TLUwN-`h3Y}_w)o1$@Wo#pxYmBPJ!Pt0HN7C1UPyE;5{vY0
zUCMMQcoNCGmY5~l`ja<6-ci;Mn<I2&fA};+7cKV4>|d3JI@fGPF-vUlYH_q9zE7~$
zhK{XO*Mv?;(#;Zm6~*)-4PR1~Uu!UH*}4WRr~ol%EsFRBOI5IU4d&My?v1dq_V{dy
zs$Zq{3e?_3>*CN|B(Ybi(*kvRc_=yfN{TuQQzi?qw1wLuL$R{>V2a$eN;V2)V}f05
zS@fsKu2r&EAbXcvme~|J1PVu9{QLc}<JWqx_WlxR)g?~c>bu@|qhBD~lIk`|S~}DB
z1h|_c8NY!F{5uQ}sGjbqgVl^f>?Zf+JXg|6L@^BHS$dR!`Wf`#Hhw31nrvhW;zT)~
z$OV{3KpW5n^Z^5x@mtW%=XJau<U=}U7BDgz-sr|bYLRe%v;!>afcLIBhGtz*gf}tC
zkRieL;2cic=W;aHYh=p^J$W&n^b=U~LCLU?eCB#e_PNo+mHdQ-Xt1ZzCk7wc>KTz<
zQ_$mzNR2oogJ;GI_eR7WqAC4AA^Y-@!8SL=`F!Y)3Ay)0zAZ)a<h(5Fa&k)ig8c+w
z{~CTibcKW1LrYPx_ba{W3K<4(IEF*;{NQKBcedW%x}rZC?0ia3?Y_m%rQIvF{epT&
z@B}#7r{h)MP*`yzJTMgB)h$&l`%^{3!G1X0274s1u2C0igWc<9jIsp><d6p;@pS;W
ziTGQuVv#m{ghB9$O`rywERDvYEEdXZZ=8a6#yNP-5%o%mMgE4Ur{_2?H|KGQ+GEoH
zk3`jkn-jrC^!PZCTC5x@Ay1;0$+Iqx58k~DJszc~LZS&pHbkx5DeoH+G7`%~60A^Q
zwqwjY#azdv`O9q9cT9VkxhdBX_HO_f=}6xq=&E%Uj^ls8sDHss|B6+tYcawSw7*;V
zcI88TaY&1T3h}DNp=De0jqfK}pJ3<KF|3O?MnLv5afX1)W*8*aa$sLsuKw1rL(A6W
zMMrX$73@AB*hzFDx&y?^65TUT(EToR_`jn2=Um&m#bDC@u?RDiep5mb#CjP<=-(}S
zyKJ2}f#VJ9MVPI4p&{C^UYxErHQ$=LK9#BV;r;kOH~hWQZ&$!eByc;nyWv*F^@=}A
z)yFD~pdOc_Q7TaP*Jp@Q+!`-lt!fdfTGlbB+<o=F<DNq*CSQAf^|dkKwK2Iid+Fcd
zY~h{6*K#JcO1nP<n+2#)o*=vgKur*DAt;nRMm=92+=3s9yt;59dSM-dV#4<rWnUjM
z<L$AUYfV?1)-fn9*4$~h-5?d0T)&<AVoE9|zwdmEdLOrx;kK_ku)-awf}L-Z(uw{b
DUs`#s

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_512013.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_512013.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..281183f15312c588bbb691fe47550848651daa0d
GIT binary patch
literal 10729
zcmcIKTW}Lsmfd=^T2i--<R`W<GB(CCeqeBTg*6y3gcwX59^n~9R=14&knHX@4^1nj
zWRi*mnYCOqyB1`(BBoLmJ5Yt0ovN6rRK=N}WoAFt9l6G;UUrJAnIHa?fvSD|?77`)
zSr~yKJA12i`##P+_uO;uJ+G^Op=k>S>5uNOF8r|y!~TRSS}M#G9`Dj)*d)ea3_gUN
zQNQ>ZT&e4Z^=Aw?ro&i#K*6L9R=-L+^>iDmF*-)i7#Jf%{DXlpF{az(EtmtP=Z-Kl
z=2sk{d*u;kpzGDB(mgf8vb2tVV?V}Ne~B|xKYp9mRtH=vP}iB8GX<<+U{!95T4oBL
z)4u9C?Y8H%+w-@3ElklzhFh75weK0T88c&ygDGaQf#N(=l|XxGp7zq`z?VG-zMQ3)
z)z2AIk-yzrz*K%@JVP@z3UzQ|mnR0WdJRk!Ko!C&YM580c1`}75nkqbR9Tp6m~R!c
zj#>K=e#Qo8*p}s{{R-}^eT2yDd9(-eM;H#71C>a~oCcZNd-&+SZr8CxXS!TRo~rdc
zRqK|igKr-_@m2=%kpT_Y$rk_Eu!|Sm{VXq=QTdXa8{r>?(F{5SqL=X_GTtNO-Llc+
z8WA{XF?j-hudkn%^@HpcndVrY6<k8V6=b;pXM#~2B91eo4BczlbnLCehmO0tJ>^i-
z66!|x_HhpknZyKGnVJUB#LE(c-`3sAK!nOyfYs-~uFio)YhIQ_qgZq+Ghe7;1z18X
z&carTrDA2!h+&~Bv0SVQ0*=rcagA82v{eg;4N4L##Ofe$K`hOVT`N|@n6*Iy!-4=4
zawr&}25ksWjpz`I5S|=*5J#6K24A9G!Lv@R5sP1HTy`DGxLR?wSn^WiO0+d7<LX3A
zTnCaI`&h?dUfpV-Pb3i@)GOAZ9@LlVF>5`c^&+nJE{$UhXyu|sgAr?&jkan%q52%I
z<k1>pkyz~230YnZ<k29vjoLaw8w5>LfriS#obRld#1gR#(V>mjzWcEle*P2KxdyR8
z<)jKH)+u~)ih9v0+LaX+XzO@pg@syAs8KXz;a6#`%i%K|vuXXIjXBik(Ffvs(YcJL
zra|C2L)<oL8Ya}V0*-nW$I`xuDh@mcNAn6e8ngGfWd+EMS;*Gq^TO)kzA(yZ3vJ57
zo2A}1v02;{1Zl&VgCIc$in2!|TX^wl(Wnqx#kRi&9z`0opnVH%7B}SZAdkKjn^vGV
zk1oy9yZOhD)lPPh1}Zne*~y%IQN6{eb-h@xwLW!wQD1!w|MaQ>6F2;L3PM}NGDbhR
zA9Tp!XQT{;xVL=QMLK&I+H<&?t8+3tF6zW~MMiCT2D1^}iDxhqs1==_+ZOGv;MkRC
zrQfU2Rgpb@*}`9oE~mAJ1A;LpE*spJef%S&IXSozsKv+#S4P-=ZBj4-48v}IP&NjH
z3oOT3q2m#fiB6nDCX%y2)(JzhWrPd#bM9f6kC6=?#&=QH5BvNw;pW`_epWUj-OtM=
z?@+)kY}qUu)n)@!85kds^-Ms>bhmAlEp8z&?DM$X3?mzPA;7WD*JPs`*%z|04}Cav
zO=Y5wSK3T{!4ahu2{z7#GCS%w^8)8%SeJWvsW_M|_T?1)*;daItj8}~G8p=R150JU
zY}ML>BZIjW7}3uK#ztJc50;Fy{4!&QD?^0oM}SX8$Xq}Jva3)LCf166d6ic5`CSS|
znN$(OK&#is@j_+{wKN}KP;h2G!2W>O%R{UB)#`(=Er?q@@K60(-5$@_@YoQros)6s
zA9SISvThI=alsK8cguJmY=y@?#L5P=nX;+R#b5AwVb_A00_+UKj>@=4HYxLZhWXcE
zv5p^;{`;-gO95_>A8~uw)(dXWpj)^Q@Hc}Y>K9sh&eJNe!y~OwYxVhscGs|50P<T#
zuDGDd1)DAe{4P%bw*IxY&70b`K#xqTK(0ZS^Rq+T86XYWnEZXPGQ-%D&6t%QZ;m#{
zdlxKg!}}gk1>;AeN8+OkR86?+!7BTtX~Go8<GYfp8p4N`*HdM+37=HfI&UaW724-Z
z>!rf_@Ea+6Mf{v(cZRzk6qUxVBwm-wT4tzZ(cgp*r>L^{mPD0Q*(^~l;jR?DYQCse
zqHCupiE0mbJ*4fia}r(i#ojLu-8?kqo~cUKbx3qa_(1AM^dM{}Z*<0m_`wNR;)+zV
zNuoE+Y@Mz9Ek3*9?(VtM(v}{H?op9@Z}cV%@pmQyQ#Przampu^Y?J71v-NYuza5<`
zyVrXEkhJrJM4t#BcwjG{Y?x?>AD(KOuiW+x_igZAaKZj&xckpAU)wMGCi^G)<L*S&
zj7h55mMq=ANbiW?DH~duttN3$vTdC5O1Ab0k)n%Y7ZVjy*~Y1$RJuc=cg!A`YyZ7%
zZri=1_Xnh1rzHARM3*WkiI*mJN~@b^Dy8yWQo*h{Vovyd@7$&D3g?d<m-ZZ=Kjo2j
zd!zzSM31)bVDw<@K%#WY@RfVYbaU-Yn^e<2yKjNo6Tx%3zrv^5m%2L_s1E4PY`5;`
z)`;;zp>6z9^iqt!CPoaYqSZHQ;>Y6~CUz%!rK0+&8p*yfVuI#)-7oQHn~US7iCu{;
zlD&S>)+pH;Z*RV{b9!gewsp20R=4}UN7~uDxZ{Mh<HW+rQ;R3xlTN;u+~JmN?s;}V
zS~U<crpTgSaFZ7&F2>!TGuN3fHh;PE=FVhw%Z%}B@-F#}{o9Ir70FHelVx2J*%h&-
z$bwi?qD-<kOzn{D?GlODyVTYx*_&s~l6{9n?zl>%E3tx|=_<@zJYEnjfN6pg!6dmZ
z-1*Q{5VL*wla#&uhAqB7UN+I1ID|$LGs16rXD;0>oO4Q>x+Qye#Poo)jMGs%#>V?6
z0*TQX;#Z@ybqYw0v}xac;=b_xiIev){jPBS%vtG;vr_B1Kal4iz9eEYO2$fH`n8Fg
zsja`NnK?eQVS4v$ue7maZtMNJ@89aZzu~*x^CwP9`%X%Y@BD#0^%yQRCgYc7)95AE
z*MC8f2}Ndss2f#O5cfI)AOd5;$QX2TtT4v;JxKLw30X{v-+3HV<R|1O=1EM%1~R^-
z286zv7tWjB1m8fbeTV}zQm)I=IcU2|h6quYua{B0qpN1o7~U*^?V_fET)HxCQ8H@w
z>R^sM9-ol)O7g|aZtFGMBxH<`5x~M2J|aUV0W2~#i6+HI!@&PCf~}!PbBP4ZmGyx%
zNU)ZTSvxX+f7Txt@x0?#>R-Zd%sYOi{w4gn6~^c9UmCApVSN7nrSXPa8J_~jMB_2c
zN%REEeSSE9j^Qz0aP+Yb2$%@I{;|Lq&mpsKS|<|>d(r1%xk{*dat|Lm5(wR6<dpoK
zZl%CT6pkZ<qixkp_8ikU&oPa{(NYhi2CtaX7^6oxygDG?(34}=AZrFpL_$@$Tn(z~
zWy6uK<DFdA7~|1>a)iU&Y52<It|9kuALH%_Zp>(8uo}kPz=0s^QnWe0xn<W-0BjAu
z0}3kec^JxXgX}-U*aNa)+#0pUI%7h-2ed|#Y`T5%&QGR)GTS!G%ymc|Zzo%iN#wB<
zNkvXa3x6=`R}<V>7^_;nq)hvGunshygI#mMJpx85SU;W%vJor`;R?qf_(qf=O9AAF
zVoEwK+&R>S$l=~anG0n|s&Mb2OtCu+{a|+HtRKZ8G%IM&9+eHNpSyT20N_XA$Nvvx
z{}sm4t1yZl-yPk(V6B=rY@e^*o`l?5m9kRf+oIb(*dOi;kAjpRr=nD>H(D6(OquBL
z`wwiTla&*dpn`4jlT)2{-k5&lo33w<+&i*hdow~jG3Y5Gy#EP_8SSw;$xxOe&5>=f
z1Mvfi1E|;*al>aEiD26`Ypi$j)WoT{`{!p<WFgWPvC$;CI==1mj_Vy$HOa~*G(FM-
z?j%_rum8OHdh-;XtZ01IX8RMH*+`^|G0Gl3qU@O`_mm=oS`p3<AYVx^4<N{8NfXl{
zB-FFwatR2D>5wj@hmZ`egb?t-2G|H1L_7$@&)^=2_-EKZW&_)bxJOhiOGtbI2EZob
zn%Esc=H{~W6g}2uolr$j2Db_AE~+;<WB}T;LVIaUURWcDasvt}Fs2~j2L)uXVj_Xc
z`NWz=&j50wmL&#fNR5(^34(hH7SR+0xc?I_QY7*P0vLm)VqT<vU%1PJX!?J`Y!=CZ
z=j?lyN2E}qu`u7G209}Ubb>Pi0m*D|XCPld0vkYjVOd%VHiRs~8m*HtYh2rpod<y#
zvWgawWUP$!W1R>&WBypLhFk~MYGanZFQ!Ao41qP!Nem^bVOO|kL7+cm`E&;abu2%6
zw=6&@A)38<&@y!JHx?u^_XYeHSx(>`-jTMgt=^F>n;oiU=MY#wAK)ATuR{^vj)v|g
zM~~A18YJL2)N{Pu!LcLg?ZGd&1z*75qM&<QG5B~#12~q0EQ9pTmd#BL)kth|C^n+g
z;T{@t1pE%(J<K{(Mck@HMHCc6?kiwEI@rr2tVduON8c3(L`EE{TdB^X=$W9t+tCoL
zb~^k4!2uBwAMfiMViEX~$L`>eX>}YlsGji+%cen=9f3l>x*;ulxN0aVk(p_oVhbp0
zsYi*zI9JKIAX}F77&idGvf-kSy(AlzNDH?PwdjZ4mm%U381qBS!2|kqL^koGV=N1+
z9Ypx+5R_42g{t=IQ7gzj%t@*0PSI~maTVib7mDtnkNdKs1|h;T;_{Bj`pd3S6(6B;
zSjK%k3bAYI4}DbyNI#|Yxt{{i2>keO;b?)*qcF2&Tp!h6GcJ<l5?P)kD?qP3rSYs(
zBpB_8_kM4!o;Msz)F#}CWAhCM=7MuW^NwRl!?Ag5^+V8MM3jh(#%f|g@MCr+$(BVD
zIYvoxD<A~L+7<1Jxf8{at|V2T7?mg|_~ZGT9~KnF*ywOv08bsf<$|Kf$(T3lTBK?v
zsy0cjU!*ol)W)gKDK1HE1}s3}#puqsQL?UCwA4wKx}>Fk(b6PYnx=YZbV<vW@ILT;
z$KQ><8}Cfg)r+)4q8&+k-6GvA(alM^6(*r<N*tmlNmVUU)e=>mq#WuzNvb*Al_oH2
z!FWToA=VaiUu%KD1#KTc8$BDZiT5UIuAhuo-tM~7J>5Nr|1<d=xj-KRza6>fe|rji
zac~Ux-N55*@%FeIex`}TlSe0xe$n-1_s#BP@urzAQt{T=&N=*EmsGS@BKJj!v>q!c
zeF!w4ik`Z5W|3Ye(d&|Q9nfjD#kR&@o3}dV4Gz`VLdVLJt7Eg;dmYHUm9#gw4Y_tN
z;6h2$PvAzqpcgbau4s6eXL(XIydea7k-?Q9JMm(N3m#htkk8q5<a4}0A0rcQS%PQA
zj0KYGWPz)gp&aD12vU;-n}UQ8Ik<g6fDf5-=*jb-FM_s&r@j0$8gFIj3|T~+As7N=
zzD3llItE$rpbd0++bPiJ$^%H27O+<GSphHRgtoR2Ez%;TJY^_4LNsZ!dUd;ij!)kQ
zO<{V`9)b=q1&=8b_k<tG5>=>Yq<$Z2P(*zuq}-}}+qP<I!3(Ov6W}<I(SDZap_vyl
z!Wp?x9FH<Zx`HKyg4qmwdYons`BjP}U6PI5denvhI7KqnqLLyW3vwKRI@FpKl(N3t
zbxHLG2vuQmA0mJ%$RI)<7=j0NMeBegG9;5o@hBz3MR0p~wC}kRQ<It2F@+V1o5WoM
zpr65y{}0GOVisW4>pwqz{q$#Nr|R!COgG$WoMFH2zuW&$zSxP#$?(AxT|9n1dj5k0
z;4bhf(i(9`P2tWQc@Z!DV(iP%&Cu*S-@beA-39t^_<$11Q)ES<JvJI|n;46}A2B>A
zEFKr5V!Sgx3Xz$EcY3CK77Aa7=vZ;ZjkY+G7?7$r%~x)cirXUQRFM)yO1vpmwal+>
zk&0R)WXe_^Z=a}6^iJ7so{&~;Tr6yr3R{0|{F=T?Cks0OQRUi1!}Z+|eXQ6PA+C<b
z>LQn}7N%(sKCn#6KE6G={o2lXLy77lWUd*o0mHIF<_T2bpG9~`|6-RH4n7XCklZ(6
zgM#U)EGK$mSOFg{!khLh;4|j@8^9>)ZyPiN@*L0+B0{DR2|^+3JRpH2nm`QbZ)GAy
zAq!&^Ej}DBw-v4p(Ziwh1E*|^adRFh!tq82Q?{a8;PSY6*45@TDhFJ7iedb!r~6X?
zQoK*l`-=CDyjk@<MLF1Sp=vL}gscTupYjNxya`Z!%HKO&BLV1;ahFVIg7BG0n+Ytj
zu_1wfjxA8E5~ki)EeOE<J<K!>KmH12VeFx;IQ-_HNm}v!d*e6+cenn!<m)we*DR2`
z!<{easoyfwIoG&Qe?&6WhP%MaJ)Ed{LSZE>5LqvoHO*Ds4<?JxgpVMjqcj#u8x4g-
z_#kq-i^4t15p(Jkp7sDI5pSJ(4)OjG23+DMQA3d`F1%2d3)Qu^48hyi7(7|Xq*mgP
z$t{!aF(Dv~`B|9&^A`RpBkKozf@}s;ju*hL<kXOZ^#FP;JFb|yviXo-E9!y8$}Y)-
z+Ns!1ia1bMCR<fzyZQq|%rvGd<4ovfIKYezu^rqOKnGGo{7z7jX+4hPf5NDL!{~p<
zs?rurXA75pvi5_u56O}Uf!z88H@k1X_t-q^l}h{Pg|Re-?bYqm!4)&_*QK&h{7XT-
zEUvvTF(Wtoe5kaQpozZ}VCM2vQAN!8q{yPvrAsj#`ANkG6=~gT_-Pyh4MioBO%qM&
zl1#O=?at8jP`28QAHn~%>33RxsRmxAfR|#8O?RrMtNx-?AL}t4^|%bpQm%Brk7H#O
zDM#H8bQNw-nW#lmxnwF&>!AiuGUKkOD{X`_m~gaxky;~BYtklEC!s!mG<q~`Ml}m&
zD^6QciCTg~7(o&e)<t8fWGsDL2=yQK;uUyJ?8M}`iF0WTic|b!^hxi*vD*3{OhtHU
zyyWw>*Vm>oD5lESES5W^a%Wl(wTER@i)9T`Swq?gHK1sXBaH??Y2&8F#@D6B*B_($
W<LwoA(GR<@!rEj(-3M0XZ2d3xUJ=s(

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_52090.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_52090.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fb22e32e8a4283343cb1a9a3267f462676b393e8
GIT binary patch
literal 11208
zcmd@)S!`R!cK33<+(eO*C~L7TS&Kzkwk&J&DqEJ<ShnNXj#I}mOY@T2C{enkyePwj
zc}N>7Ng?tzt*A7p>DK_Eo(+U43Pb@O8l?yjr+q*;p%4qVE@0rjAO9)O0ouNw_RL&f
zl2$1%=}&<Uz&qPHXU?3NIdje#{)@?^XCUc^e?9o#dWQKOsmQ4~Q+V`8CBw`zJj1hI
z=Ax9d7g<_Yj4CgxSVqCP*<ngaMwW8gZhX9r)OZE2<W;<y*L<YnwY>TccN@kaX-y0j
zVCXU!dS3qw7z!BWc`;PaiJ|%#W9XiHj2wo6H$KD6bs$@L=8s_va03i)`W1Vp=(a+V
zH>_KcRLcMIX18isUjMufzIcsx%Np(0HQGxGw|n$_>D#K?nGxmuqK+?fGsC5MjAV+u
zZH@NwHQLv$(O%&;@Rf!8JVw6iZPi61U&~h)hTzvzY*XRh=V|pQD_~|G4Zq=S^~Itm
zjQG6slQ=9WLy-AK7|qOY;%nY!FBZcIEY3>aa)Y(kJtWdT^)LkAhYSm!1Ej>k$F35M
z2m4R=op78ze(|v5<YTo{kJV0y#-lHtKL26{@*z3zc7>=Pn;doc1I_`rU(}KEHK#D{
ze^^6CP?3+Ce8^_CD@FFC$et3}6M(06`Nlj$1Ab9C;=Unhp<f^j2|Ds2nn={1eX;-e
zImZcC8Pw!NV93aiHb7~X3BYWmG@LmPa-HNndq;6Q0}(8H3al~@)`rxmc#2R^P601a
z2I|3bq(PRvRts%ihf2`8DVSxj0+pc(+E$4wQ3-9U3Xu8JgvwDBrB))J-C#AU0-Wk8
z4Z{$+!S$2^)S!)wxB;z)v4KJ!@6fwC@hmEqX;L~H(FWl3S@0~6;ng4;vOW`@^)b9!
z#Gs9EpD=%>;2DpCoB_lUI;fVklJ-oij<gaUDW97VD?#M&comsB(o^i3RoI5du<MW#
z)uJM~Em)6KP&a4m4S7-{`({-_#mM4O1hTD#?!P-~d7i<>fJp}B**wYxv@g;kD=H;?
z$k=jzh>5VT#bISPqs@|}B{)<|<<W$iR?S#DLiT|@Z@dCp9c@B(UUNq)-@(CViOy=N
z2DdzgP953;ylV*OJV(}nj1H$LN4e!G6zWkEqCE4uJglux!D`52<<DYU9#*0Cvp(1Q
zwdSuM%I@Do%xixE65fusOFJ*vMoVzYc)ACJJMy@&$~z#J0}m{3$lFB)ZaLUR8S5z6
zj#^OLV<%$A6sSDZJ_ULz*nv8R%X75lQXcgJHd<E0b)rtR6>TS{kE|ftmMKF$*p)Yn
zbu!&tj#^O{+K#Mbz3&*a+_t_yqhe5F9&Tk0M=qge)GF`qDL5m+M%a&;{g0&cPFgpi
zI=MCfj8lv{R4?~s&NIQNM-ACl=~R=}h6wxq-vL*pymI6a+!cTRGj(0}&(y6ukpdaf
zPH7EgZ71s-WJ2AKpJ2HsxN9{IQWI&fhDRFGN_Rthp4_WtY3FjZ3pJwl+-kAR4d(xa
zEDG)40<y51P6;4N#?Fc==k+1~Lt+UC7O6$e2X2hJ2V`l2L82OU`bR{yFEHp91aiq{
zI#>1!W~e<RA3H0Mg|M4NMZhcS#|7Vj;2d=f@uG5cXiU^N1?Sj+TU1ZE1)pEkdb~bo
zpnZp^mYP*Ae(0*Gf<|6cc_zJHQ9U$9`V|46sP+eZf?HJbzJREA27IGKE{Bun?Yl*_
z(=i?pMD-OZbJ0xicR9UoKP~I%aHJ>@1tpY_4^cy+&L0qlc(=njnk$ZEi&yfBW7$?$
z4%Rg$nlcom;Y4GmN=GbYwFyLhiOO*hi5fnRDN!>3EI39p`IuNtj6~8kH0Br(e3RoM
zM>8TtgJ($a2Wao8Xq1}$LsM=*r_?eTNZRM|_z6*(%k>dh0U`#!sG-90i-w$-{GvW9
zC+KjxT$7`dUXZjPvas$WF#dH>LpFh9L}Z;r-lPRG!Ff&8NQ8tsD%L9w-aRqt91Do-
z5UkuJfI>Dn<O$IIAu6vrVR7N(@Q7L&R7-gUnPv*WJzYz`e>V`V`Pu1@r(3W2gc1L^
z)8%d*bh<{IfkEHcR<Ov&0<C_*)f#Y*j<-Us6?R*PW7HXdd2buP;eaLw?2mwN%;ECE
zF6rE{eb;vA5KR({W5g|txxIn|*dqtRKLrMTi1}#;V=&EZo!%Ndv!ve`>bq|&nmIXr
zGB&YftPLGrE;2`2aM6ai1s83KBW!999VysWUKjV^@|KjUblGf8*&4CAF?4L%S{b{9
zt@hA~`z5x>)wltdZ%JHAm+TJpFB{8a?eS_{wG|t;!8oSkR7o8+)g_GB*bzGXz+{bF
z!lv4f4}Nm|*71ZhS)H!$!KNM<{b%-gK0Fgw#V$mB2_3ezC66q0{F7y&`?J%FL%8EK
zww=bN7bW6XKXk@RV*}AQ6Saih8`!pUp=+`JpV`IDU+lm8CwR}x*!D6uT?id{V6Bd8
z66<kI7q)hXPApq0V;+#vhIVY}2)*!oYw2uLv?<n~Xh~Id|3>(7>Wir*>kA+Ym_geI
zS7ryI12Jd3I;q9A-D%s-d!}7scDdLR>Bq%2@orq)oOl@*w};is7F#6n;hD&_=!SSL
zw$z0+WQ~qaAB`M|+Y<gIV|$o=P+ay)XRI_b5G?|j;<~W<ezA2{8`Z`%@$(?Q+IjZ^
zJAVl`>{_%e759bJzqgdkmPgBDRf*1I+x)JDz9q{6Ae=$cC(4qR`HF?QrQ#ldEw#-a
ziyn)46aA_6yS}!5Q~6cpQfYr!cON*Lh_(D+*&Oa&E-i~$qDR7qm&<HWI3IIHPlONO
zFDaYtj&{fTWBU__exvx3`+{34=?x!RE?E~V`xP5o7u_Fs<B~0j0JgS=`<6?~XOBdW
ze6-`{?z!FR(ng?Ws{)~(nH$2k&54F2JKuzDJHkirudBSt&2jOH#L<P?1ux$H!qU1E
z)5llLjJ0XS%IHcz5N5ANuY!Cl(&bw)w<T;?=87UM@p5c!O6<bc4$O6gHKc8Cd^0Yw
zC(huKZAm+}?!nw1(oqsY@c~@EHEF`-`!KhU5U@tP@eA12l0eu-;NI1*v@=D!SGpL^
z9I^c3^<`^$tOZ*e?^r*rn6F5-CB12TAGY>|wNL1=*kTp&3%@>-R3$FphE813i7lNA
zy2Yb+4}JgA*}F&ap>ufWIczxxTospp$i_NiTCzjhaB+R2JX!kp6UlOH-?h+-?fbB~
zC#<^9>1RySridptl2rY`bw2n%!xcBpMQpI;I)31`KLQoR2rt4%)LwB=^(&kuO++V4
z_nk&?2PTCv7g)d9L@q)aF<6HC{~hif-7JHc;cR!Va0!fsce$V%v1|1P)$i&88B3mF
zhDms1Rhs6ebsh!KFW{v^YXL9j4x6>MHDN9c*u3IxE~pI{WYS1W{b>e#WewP#N-_p`
zy38<G!>bdol)Zs9`c>I}_9^&<`*Zl3r{EXv&*3Ycg0FmX|Lu$)%rZ!Gma(f(%`1c|
z5QnJY-B*WPZdWGmLnTC3gIGn6#^Cc;il@bmrdb4DFOj<J*W_8^#H3u6reVc-8ugIj
zsRym}D1bB7sXRN0xKChfYNTsdXe3pos5*K0TyM^H^OG%B6AB5JAs4y5Ugzi)-q|y?
zC37uj3<_cw(Hq^rW7}S@59~pI4-_QeKLu2O8+`sF#C&ACSv6M`Ka)@;F5{-X>56?{
zYrZjjWw_gWH;_7a1)p}M5Ae8xPk9FLx<P@UQo~uG+-iws;~WR87EC4Apr{6GB5;Gs
zT5uCkVjh5fL@iCbo*q!aNjg>?PSzo^E>T6y!MwQ=hgLRy4jhoCT(Ravg$V$^1V8^j
z!skCj%(B5a(>>k&)}c^uXkyu5o!K|NPpaJKOf!aQL*z`1g=??&lg+m_Cu=`%`mAY*
z+Y{=&Zx{?6y05ZC>anVPnbU>4BfUhot4X;n?1XHFC?CsvKw<Wk=qoYjU%tA`nP-Zo
ziy{+gt|HcbvuCa+QJb!6Sp&9+>QrZ%TNi7%*)rD>pZJ^BpUj+E1J{kw6gox)Eo!g1
zhXw`%V4dd7U041dBYT%@h(`+0H&l1!?`-HGDUih|q?P0|A5<VkA<Yz2LOTh(u1XMB
zWaS-AakDxp2S{Fm?x<uaUQJF-PzCe~X{SQ4YKXO}NL-ZHOac9%2B{2irfFH5r)>+x
z*%T6{1TD{U*plN;F2TE#R_1Z|$?_`@<B=%`xjcRf#CZ@`NV<|t*65>JLyEQKt)Wfk
zJC}n#FW~py(cRA6LP1@Cs6U!`^^-@FZybnyg+StZ#7WT%q?e+!Pmxdo?y?dxAU&^`
z0xq7!!3gYD!JZpc!ua2gJ;w6tpb;5(Es35Wqm)Aw4^Gb%JTM@gJWEO59>reZ^Zj2y
zEJ;^r_akLy<&=_cm$2kr6x1QjvtS{X#8I<Y8l?RhSXu<5A+1LV_le=u!~cRrmGe2c
zOO*W3sHh!ryT_qG^>!w3vF(7c0VYTz9s*BFG=xzkG?VfO`P7pSv35kQ;HFw$s3kS!
zs1rP2aL&iTjd#J7GA^no;jY;!*;;mjMs<G!l<X!!APs(sdClRGD5|eHNKAxe&g;3m
zK-65Lx0c9VbAZP>;^u|(1W^Uv@^<=d^Apt}-w8CAt_2gd`Q&R)cpIR+@bjl&x#1?z
zTV|T4n?E=|`&#t1w7xFXw`?@e9G^Z8zM|eVvt@cq<VvhLt#6Pzz#EFO@s9A(w6Q5+
z!Nx5B2JnTNi%KHy>CspKoK5QRg^xsDo<1Eq3~t%XtJAN>>f-9TEeRX0Xib~8-!pY#
zQ&)0gVN=?)@1E%ZHXZo7?3=2us?w&Dp(FRrr8BQjzaHzlxp!`Ff}Pu+IPz)#eE))F
z{`A5GZaMH<^>>DE4XI16dzXgsrQs#>Naz^#{vw`PZ`2!ai~8adKbY*`_nC?RW{L3A
zXy(o7H$R%Z`TE@JY4et_YI#R{viGyP1>2X^UsNwTzu5SF+p+Lf0vv0bD~Wif-?(S4
z!RDHe%RZ^PRkdW^de;d^>uckO=3Y(k$#e4~3r@UsKdwFy=6-33^hPG4ha%<Qa}_IE
zrl@&^V~W?^GjGJ^jd69{d5e>LtfX^(YudaMJa|*d%;o9JvBUA&xnps6qW9KdvKcq-
z1!;irj20RyXo$0OP4UBt+FQqxdR)IdZQKLmH<UzPj-5{#Hl<XX=;i2A!Sc!pPOx+j
zF2H$O%Z7)WhZ!cf<*EcXnd)(ij@tQ!Aq(37tFT$P;R<6b$az|wR$(i0uY!ec45Thd
zLwZ*$+(+M?A+8RdParF`LjDHGN57goi219t_lPF<PVyu^WQ`AZ$aT0wwD4|}k+8%C
zQWCvKesF7MZGkl?QttC8o&+o%*ae{Xq+0>*C_UH*aL|L~hS8EYlS~~nK6pl2#7U4u
z0^lX(>M&WNJ3;$X=}1~1BKXgN1Fyh9C39b#Rx$5GAPlsBf%OL&NUH?@b|IFKG^VWm
zL3?wjgh^=6+1GjMnQCjQqqS6p3Lw~wqOK#Qdh+=nYBy(P69p_Gz6B*wf6XyDmak%U
za-8+L$PNpy5E!M`cTH3cf(5#k(ltmlsLmGN1DrSE=NBZEYb+th8IG>mMwC!Yh<7He
zw|1q?TXTxwU|jQw@s=_160X^vHnruHz^0h{=E&SgV$+;2O(J>_8=9?(R>fYqd3o+~
zq8G2<mgGJ!`m6{P<M!UgUcCMAZ_j`C+PANzT*LQV6WBGeWD!Cy5bd~gwkO&HQLK{s
zA50CP8X>UM5Le9E<IcIQiQTxe6PI>Lv8U^^Z$#gSJ8^l_4;DLwpdj4X7IVfrqT3*p
zWG#!SqRlj>6l;qfi>rVj1fFW^<5wXdR*~@H&3ka|o(1<}@8XTce%x~g*PaQ#00FJq
zSnph2<SI69SgzZgXiQp?$CK5#xd+$vES4=!+_f(v+<Ok!oy$SToO2D4>)#t|el#%F
z<`p$l)VNa27;X0q>#<>d%pLEY8%(GZ&Up@^ZN{{rGo|X3lw$t2%PPg6U{&BRUTjeL
zWLFg)>RA$E2mrj43ONjSl(LB!R6T_rD8lEWrw$OFX@Ucu=Q>;hwH4F^wLuO{*{m}H
zfevzbIi$P|2b-jz9?V<)5DSXH00&BQN+1FeRjx_iX;(<+gIL1wRzockL%<DB3NEML
z?P#;Bsog^#WOxX~(+8TiE^10p*V1m3TvKA)OYbQ3P|=_hdxgH&IIfWJ6MYU4jaMAx
zO~Enl1LH^_!3EKjiKzP~1LKncYFABq1AagG6J5SdBbhX%5_3L5aJvGsH!sWr>|evr
ze*-=t=7FUYg2Ruwvt9pC_WAnH)-Q4UL%mPvX#`7Pv3aTSBv#dh4ug-|AFut%$dqk^
z{am)7U97%4l`g#)I=NzGbhb!vMXfSxLPyCyED4>WyA7mB#A{ay#Q%E8K-5Kukp`<|
zK@wY2G)r^d=7ra<NqBb<Ik_ZkB>kLoGT;kLj=4omAN|*ls2m;&h&uQSkU!wQJ}zWp
z2<O~met3>i5@AjdM0H?t-0PN>hv*(E8PNc?D#+9^;PdkH3}sUem5loMNw2#{_!xje
zMKS)rg$rm!$+GP47~{V(rhj9qAF#zC+dCWI+W3Gg3u}mv9``TwrOup9xjoo6kP1w$
zFw8+kp8}4Q?vP?R3neVHr(S$1#k;Z1lkx`us#kH4LiOcAJsU0m!og>t^{gX48?7C8
zg_MiOHg`(!1M>$Iy_ETbdCUt7YXYrUbSBLoN*Ud{pURC2#Y!ck;NGcxt8ztggk{@c
z%Rt<|CEBuL$y8h0KK0Ifv(*#qN%p&zZ{>cg3|>OPtxR*vr`7Y-f1uSzN=9LPR7FOq
zrrj?pida*;?33zS)hi4X7t~)GzcA9`UH5n1Z@sjbat+>d`LN3;)dJUO4l@n12NnNL
zvg3*$rR))*@?(vKt&4RMOMHcaV)87_7CY~jeOLW$b?U;Udly{zf-B`7zUQ96?upd#
z3EU?<BCtO;7O`EivYXX&l%uZ1<fmvJkpa6F4}a7DRX;7JE<2^%J8{o@9eb~nal0OE
Ut7J=l+{>8j(na-e8R-7~Z|cU18vp<R

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_530716.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_530716.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..59542ee5d5fdea9f94ff6b7bca7d236c935023b7
GIT binary patch
literal 12788
zcmb_jdu&rzn!oq@9lsqv@^IcH!677sSAYT~5CW8vLP^UIU|h%73C_#Owap{F)|gRO
z*qv%|G&7q^XEZfcwK!8Gg0@mqX{2Um{}`q#?f9;v#=6T&Sq-Zd|AnTb-JQSoJLme9
z)M;qdEBV~>_`dV_&N<)tzTdh27p=C0fQMW7?bSav5X4_lBKv4Fk=5Ty2x5ky37Q-w
z`o%ZdPvSH+Ch3=w1VwnrVO&#|S$yMs&DuPaqA6NJOKBM`|Fx7>(257jkD(3pY{(%2
zp6|v%eP<3yL9bM_EZ?gk=@3Ded`QyjA@YGH+gBK~PV9AINNYXPVMAe#7^ig`<m)%c
zH*An^ES^7DLYv-^ew=AI`|ek%2)cnT^$^46B7HJ%kZ;)_-?~A*&7-EvikA&)=<;`D
z{hAG=RZ)C2bma#5_Tu@2a=I!%`hG2pxw?3NXtA%l;-%jucTiFeB88S~V0?Nk=i1`@
z^baY|61ooBGtgV;`gh2FBkUMsZnjM~Nk`)|G||1!jzIV<jDlJeC?Rl21<lb{Upsc%
zdHz)Yap##esopiI(}L#2>#x0WHbePLir6WkWIQ<L^aor+9>1VM@#`*T!vBmyr4oTW
zBapoUd0LRUof82Daujag_@H;lFGxl_Hw7)@@p}T!fX_MQVSJ1NxERzgMuh^TKm^74
zv#*}&bDnmWK`Q$o8l)gr!@x2_1juZ`Flu<+Lz5q8%0p$FP*OR{@&ZaU)O8OlV@p5I
zv=yq@gjUX)bF`JLm93nT5k$z&ma+CJs3TOxR<Tx`R~<kizz<u&R!@NhSZj{AhOGvk
znkhL!OaV=(7S{kN$V2tiv9)X|s;8hoNK)$_n#}hd*Hh2dvE~=z%Z&r`HL&HZ<%Rex
z*)d?gEiA#-!*N0U9Yqs^6xuYb64k?QLAfYDldD3xhzIjEvZP3n=c6TP<ZKD%Zdk{y
zUc=o~AeACV6I;rf2dO|#R>MV(sRz>RI6}<<eU_9a3u-R5Rurs-wV}RbxwG$XB1T>r
zftlONZWSdd(uEw~kc0zCfK`m3d2acJ^kgWXZJB~~9@@sXu<IouN9DM*wV<y>4kfmc
zb+9?9v)ka%lV^{&(DqGun^;HTeBd6puBoAIgK?Sg`fcB&ehJ&o>auhCjWOzTC2QN<
zu}Q5`sMV0;T_?HBc#OI7wRLwC9}jTBuA~)+E3|WcPuG<0V%ylAQ=sl>C7z$%YzMom
zAiam(&F;Z^U<aygxHP-!^6!E*TjWU3X|%m;bAcqRdH!sS-TwV+XZL2;^c0whq2?I*
z-nf)to4<dJp-z_ie)?>kX3^y4?t5vubvi|xtu3_g2kD)-bAO1Q<@fl0)<#n!-Ee{y
zo??aPXJ*RTeQYPY|A8vI!%5<1;n`7<T^adzF%CybF9Yg@c!o|{1{OXsOA0bNaC5@*
z-&xLCN|27Z{3C+Q7r5$S7&W3t8q`5DRp_M?sKBUDGQs$U7}uE7OAAsr?Y$;Q#=PT#
z+{L)YhdhD|SqXkYF*xdT1$ONeWMZ}yk~Hx9G9?{*1qtm72qmt7Z_Mj<x@cOE`2#-2
z<2WG5T*wj;WCQ5Mn4oPzKH$fBih-#KoQpcfAnnK)QMt+=V7#=)=^D#NM{?1Dg6McI
z*PW+zj|(N48U{cD`S`e?&gM@|j1(q-V~FtuC!BsS47rF|#Gw5vNG3o|G6<YgqVa{I
z&@i&YP;^`{WTW13C$3RYiWLK+deF=G1DJ43(B#{L8gQMN*SMhY4G#Lz=*7qYObE^y
zfr&x#@`D7$x7y`)2gib=Ab3U~VYWw{Kq<)4)H{J3zg?O4fIzwgazIdJdvrsf2K<5)
zW&!4S!0Es09SjI6G$~?K?i~;8b`A(i@jW$xW|8(x3Zz?*V*}HV7nA=02&eXYKYu&h
ze%;56_$OR$Py1Dud&CvE>Koq<ChmBk-Osq&1D>&oc1X43evG*SFygj}n@-4b!b%DF
z#+_~-td~8zc64^^g%Uw45;;da%(!QiaYFx)h3g*#b0JK8y@OC|?`)55=g3q^Mflhg
zjqc8w=ozjqrLl*PKQ)+U6w?Zh<PN3`Tf?WGtV^eD4RJ4TYfnneX}u|FZQ}J!;ge}o
z1$UV@Il`x(lv-mq<1g{HwmD6z^icTKw8qBmire|h?YyQfd_1i+Bug83Z9_uCYj%f^
zFY8KUqr9&Equ1|Wymv7%IoFzMe3{q196pi$?j=3TT2pN3eOKJf4e{2dL^*HWIrrv#
z_aEx!Pdsui+~oJ1<*jFV?YVGI8Yr)cl+!;+)bX}$iJQE2-+br7?k|iBo%~CuAA9+i
zF7Vb1y!J=oo~I`B%+~3x+^dP!WM${?n9rv^n_4uz0^@~xI({)QGc-NKx#IRY1z*>h
zvhG{b?vIdZgE96hZ>WuT@`jd(ENv>|%<oTfw(0ixaS&GG9B*uk$kV3s_v^Smu9-L0
z$ItPmrbH8O+yVJU8`l}%{aYijS8hwV_{w&i{}kryMD#?ghkGM_k*{jw&24jUF6>&=
zoQRNUF2yoWeDdya;uK%Chd1w;?|Iy?sOgQ6%a%&6`@=f!#I!RW<Sngp6}<VSi0X;n
zc;|ZbdhA-<kr?Ld_wlxU^A{HSzUWxEz#lr3JloG7>gR3!Nw+sS8CcW@BUF~-I&h5e
z_4|3-{`sK=`iriGA^vc0^7Zrl;q%E01N@-@-Zqf*`jXeD7WHpOq|4?CZuf^qu5<de
zxQ91yOHA^mJLbB0)1HVTZLxEGA9ipTcuQk~<Sj@*=C+7x*=&Ihzm_QFOItxK<}&US
zZ*CNm%4HDhKHk(2XLzGy$*`R_Y=1EDaCmk&W!MiQSC;;QnYlK7jdOiK-=#m=dH=w@
z1F7n^Ia$iKmsjq6SH0pObO%;i36=SdE~*3Ksp+YdvOe5}7Kn!%<*h9bUVnIT_Tt>+
zd~0g^3Eq0*3*+PN$2Q(_F4=d5w_M@1SCX#5q&LXBf{Qn%{)ZrLl1HiM;%kK<j#1qd
zyn3kDsa2GD9+eHi3o_rJE>d3+#3kyon7WM0T;vs$dW-UkDg4rTDOj|6bByKn4Id5M
z_uli)k#h%AO-FeBkw4Te^er^=x>p{b<8{5szKhArSNXoHiz8!8BLRLSkPKdf3U89f
zQ4dDR9#roe@Pf>f)T^imz0_-B>NQl>N1jEg^HiUh!Y|z$RJc2>(8Y{Defx>B<c>C~
zjSa$@r@vHgdkSe~R2j2!#<=-QWfL?52L^dVP)uI;c!#bA1i9bs8uj>@MkrtoqEb2I
z2?UvOH`tlE#|AO%Y0twEe_MH5HAAq(aL(V((Ggk5!B4$H{FG$L7oeeDfJX8HG(<74
z|1$LVU1dndQpHMX5_z5Pssg#O4kN>5-4j(tRf80aw}=-V$a#9jfX)Y0)}{){BgzQW
zLQCFJh7^G;hzh<O_InBNY2{$)N>E#XDiFgtzcSw$TAH=uHz>~`93b~^=PzEK=a+B7
zU%WiePi?|qygbh@*@VA%d7d9Z!X)^t7EyX6!OG7Q4n;46%wMoV<+SIT*X?1DZR;*v
z#%TJHbG3@xsb5l?fl5)51^gRLVb<{}aITOwyzYs@GNLimk)=nD1muaBAqAb3_7+%r
z$i4%3O)lCKOg&0U1nHUMeO*k>JoTfUSsM;BKZds;9Re$LsySn7fL#=HjR(MfbYe5b
zzq9S&s1LTh|8N^3bOVbYZTtTX6Hg4*8TGW9>*50OUcP2m%CP&BYoEUT=<S7$1^V$}
zzNbIcd5Je%N*m0vi_`iQ32CTXAxKpn^A=Qqjel(SJ1C6VVdK=H6trGH7(&p8p`b75
z2NV3NYXXdTunpZ;1sNDoft$<_s-Oi0$S4A(giUQn3FAU}11LZ}&1)&qB$xYwfr(&%
z0q}$<kO#tbvUcB*BcfQ!HxvlN0QsBn^KXTf@PA=qMNVk6cV3RZyr{M(rS_!So>rTd
z)U~|2c2QlQl-4KJ^=Y+nNnOLMYZldYNoieDU6)oHmekd}x_VJvo0Qfj)wRoN&7IC@
z=dJE=S9mh5)ZNiUHL-J1eYoqX)^z7m^b%Lco#U(t@}Y88`8(O?+RwC$+MaOFU!|0+
z?rS9>GsU*>Qd?T7igd<$pn@2jo2p1h#04*`){Q??$Ii|CX!=K->*tr!N<BI%W0NUm
zIoJ8Y;k$<ub*ai$)G#^{Tq$K4*Yv^myW10Fs-k7XY^~VMpXoWv2ll)6xa(InX{9M`
zvBt^2TGTT6N*SRsh0owQ7Zf6Fd?p*|6-x5(usf&aK)A@zMeB4m0UC3&ZB>BPYQKF$
z(Rr*^$Ld(@<%jeIJURUgZD$@pKGoUn7c#JVz<r=3WMqvj_QOM_0{$ZB0pONeR+>cs
zSR>+QO|%4XK{P^mLZt;Y6gf56QqWGaTp!E@)I~ALHPjZ?3@9Pc(ef#9phH&Hq6T~z
z$8FFv8At(C4^}KXJhDQ(y9k~M=S~?OgSD8}Ex?rw;^+#)?1_{e3t5O96l+V8Y0LJ5
zw1rePeqc^Dv?42ijHp(FY|7a}?4#&f0IrOp#<Hq_^-zJOA+CkWg1OmzE$A_)$X~f;
zMc7%pI7fi(LXQFGgK!fWd>f8eRnV^@C|*HnF~p~eR%J&Gdo45mP+^@FqFf6@S}{Zd
z%ALz9c6IomBs&M8>Og*W6xnssO<Vy>GgMR1KYOmiT!gKJJB}*02HQq8w20ut-kJgo
zgsslE@Ln^Zi+Z*kOH_f;<Jy9ni>*Hrc8EN;cWV(RTfO!OCjpOtuTBamm_s9CTG(u0
zDuI?ky>*a+)OEw_N2eA%ZAb92mq{(Z%+x?8gZhpEE{C3}Me#ZmY(c?R2msP@-C!C}
zaytqfD8MIRGb)wAX${bp0*Jh0LBL!90K*aKU~qI)kX;A(%;TsN6o5pCs1=Ps9DuY+
zM1vm3RTwD~qZy3J&*Z=<zdIMD^SQKJP-ba!u_?xn`iJJ838MZ<7~ge)f(tyA+c%1C
z{+Ix|)EmV>j}#&z1|vwXfvJIq;e;3-29C&ZF9j*;AeaPz^xZ&~0fKrYC@vWTjEuY{
zkduNO5SS4UAbVgg;3hycek9E75x?PEJo(j#Ka08i3ixiq&tD3Q9xxa4I?Sa+lSg2V
zE*ng-{%O4kwy366a9&?X85#isQJZ7e;iwOHFRS%22d}OScRvB}22T4}CwD%+|E?2!
z;zWQi-8H{u!M&({CEWc~XSg#M9gOwG$wgg#_{5WS>9iKrsjZH0;WbSNk1<D1#)3Rx
zKi$h3eQbZcgfDI3HQN#cyk<xE_!Fu8_Q_i(BmG<>udRt&?w8#wdr<$dWws?%w`Wnh
zH(P#DEZ=g!`CfCTydIT5HCkhnTua=wWZW8&0onstiFeu?C*vJI_wl;Mh$O8q<90=V
z5_j;rZ4n9T?of0nHWZh{z4!FIwSCUPTVI-Y^VY7%lH~a}7j+i^#{gvII0&j6p)1FD
zee;rT8?Zk(`taoJ$&_vnAR$oCaCG?BrVlFaR>ZsFOsc#k(UsD*MaZYd(iz*d4WwMk
zxjtg<-?(>U5dkhwOg4`EhpmyLPb@ZU?6}j_TM}fVepWVDKR5ZPiQl@PuRZ{ot1`;k
z6zy4&5T%tXC4{+(3-YB~5=P$C5>X)E82Q2o_A0;oGH+~2T;Pqn=LYA`J@S63Jo3Db
zFgZlCMlL$X?u=rD^+FKH+{OmXS;)Oj-j?51Y~}>h<Opo_j4Qmcd#ZR>zKH{>h{|aS
zsW-Tq%pGFI+);20ix?0OBsrByZQfFp{6<T~6zOIyNeWsj@;wYI$sP$IX+$0&BZ@)z
z_6M9}S-^<p4FM~|2LOQ_V^#`d%N;0L3OGn**?Kl8m*>i<P56tK=lLa@@JqkFoR&w)
zDEUC~amFkLrxcHCPy$|`vX?<Z67NkY?3ZGvXpM7<mLC$qD!Q-urDTSPN}$Tj!hlN1
z-dXf52kB(qLv<myPLP74_WRMI0S__bA}SA#y2b`**Wsy}HQr&~HOvxx0(^e7^1(ff
z(Oh@@72e*)TiOdeK4e}vB<s!xM+w}$c*mGAC}hS_;6nk@ym?<wD8bI3bJPofI8w~a
z1OyHx^J^4Gy=OQSxKRLB10ni(cx)d+(vK|b+P9GU&w6><HRECa5eOb2%2f#d7AC-J
zyK^9V;AaQ9j(^Mfc1GKbecFBtRCHuZ)-l@>mnO)2s$_Y~Cyk$Od$es~@Q-7^A6wM+
zg?j*4#=aXODdB5(Cd+sIZqMh3K0A~=cVX$=kNI;yUer1<*^;)3*H&?ZDQ#o;_<yO}
z;S7-KV^UsfLB5=vlgGiI`)<xz0d?aCt#@1FlfP;QG@Cmx*Ya1j9Go*9IA^iF+#Ya0
z!3h<$nQHR7Q#?c6IpqQJK+?ks?G;cgSd~G>`Ul}>At~TzfTtj<DI^ad9{da!)|SbG
zZ7K&P1zh4&3{QiNirQZH6kuhF0J<2&51Yfhz;gUoXkS@SMh<7m3f>}=lHK&c^$56B
zfUhZ8z~7KU87}loGn`r6GE@Sa^2I3CtcsOjnP~D~fv_6LgF0Dx&Z^deXM$B~NC&p3
z277K&Y_W>D`hpSZ3;KN?`fUJTQwe@8_E2A-_r`o(c^?{Nunp=mfq!eFW!UybUmD2q
zmj<QKV}m%ixZfrehRon&;+teY`Cbit6C-|Eqs9~p=n;G)gZAfp+oi;NZ@}-L;Fknj
zTp^-t$WdZ`g94--o`Kaan!?yJh7G<>Enu@3na>QieWhNwTEnKX!@}H0*?A3swF27w
za5)KPonO>+NMQ&h+%*mfq+cMX&^<4*NF|<eT2Ny94_!ctH=>A5peC*h<OFjDF-nkS
zDw**4{Rl2Z>f{?w#*z$<<GK)%#>@llKf}*|7*L}yv23cGX`gPtbsE%2BVa+Xj_7_c
z3iHZ>vp;y_;g#7d3;UOjo#&68$I1lsO>FnyUjnlT%&}`T>@*win*Pa`#^y*@+JFqS
zx>#UZvt+2_4Rt9)1Io3;T%0jRPpg*<wP0nX4E2x;H!&sCy^-Tj%r;I2mSR~;qB~{o
zh#X7X>~V5>DsnPiZs&q`E8+I32Ci?)+9Ic(SSz_xUs{`DR2mE=SG+87^j=l68t$#y
zm(06)^X`;+Z;X6WUd>JZrYzQ#uC&LE@pJbqcMm3Z@fB^cW9f>Tczt~GUen#SL<e8d
z3OTk4uJ7klX-8{fa@IE2F<Z&Wxyg6~ckO-Ma}`lh|6E4cnxE?l(^jz2bmc46c`V7D
z(<>lUv|><t^=k;=BV#foDe&uZ+64+T59|{X(DlMEw~A<|0z*i;Nqr;>U!Q%4`eX&)
z?8#V!1!a198Tt{DhZG@YNEJXR7=DnRWYJENd<<F@J)sg>#+G==keXG)E|T{$XaMm2
zLy&ecgAj#pB+%*?)Bz8;dTy8B<Lq$A@ac*_fuP4l{}CN}7}IoUL`)RfQ{s0Fc=x=H
zlAv5fClfBx(Iq>&1QIj@_ybJmgb!9Ya}SYdGdI~H&?+e4OU>YD!0$&EVc{+jH;7s6
znvY>T?m!lBX8r)Q{|P@oI{sm&7|r2Vo+`C>)KNe$IWpE0-}{N>)2c^Ri^`V)8{N31
zY1drWLd#;)8D82DJ`SMhtMR(8HH4)t;hM9|D;DgJr&8wr@R=12p|Zw8D>A8G9zL;R
zAT*`nUVIjU43Sj9UO`fSMgXG4piS&36|EF6#09-L=C)Dz+9U|~{em(ZV`@>k(iIH&
z0>N>QAU}pbV-+OBUid@-KyH7)b7O+ZfY^PWaX)+jAwj}K7&EqU0Qe40jC!zXf^`TM
zkDwL>>m2fp(o7r?zl8#f=qnG7`RL%N=P&~YAOYHj@SlRk1^7Ej{)N!|JE8p#!Vc~Z
zWei(y*W9XER$3x*g!#sq`CZAguP12_Zyikf18{ZNMIEJJPpOVk=^T}R{^$!(G4neg
zGf6kiTRlm}4^<tZx^PuT*Hm>ZdG37DGss(ql7S#l9i@(8D!6M^$+YsXU~0<Jr4=#9
z*G3gZt(XZ)dAs6P#R_$ZY=%^+Wu|qyb;Tm4+B+VO&W>hNr^z$qpIiTwDYa&4ZHU%N
zw6s37&)UC2sZ|L<X;v+$ek&?GNf8~ppUbL96ZpyYd-fFqqVuxPHJ@p4G~KlA{^-5Y
z6$xagUpn&n!Osrj_;Snk6~wi??+~J0Me&s$_+LY&%dKP=333OI_Hy*{iW(<1*`yXH
zbp$xInrY2fdX&T+TcJ?&IZYbLIu2WLD+EO6j^Wor<73&MHGk41-@LT+<^ccZK$7+@
z(Gxs9kvuuUADvu9v@1J^hNkBd3u)r^d~opY!4(3cbCyr-k6>&NUGV&I^!KAUnzq-h
hAi{J@`@`1R)>RZ=Jy=1OK0iq48&bM0x72v4{Xdr-ts4LU

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_635842.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_635842.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..699f1944f23ae6afb3576358c1937be7ea73b4f1
GIT binary patch
literal 10504
zcmc&)eN0<dmVeLov!DH*4K`o`AqfxynD9{&64HbuC4ta<Ktev+3C+r5{0uQ4Hawf8
zkms#4)2enmyO?%XINg!zbSu?qBZZ8z3Y97~Gg@i7AJX#bXt3U7C8UXVl|NP@L;l#^
ze|FEk&(C&T6J|1h?3Mi9z4x4Z?)N#rbDsa%XfzOz{xk69<#);m;`gYaBx5SG_Ae@e
zm?t=bBgcpV`ArUxxU3pi4`@iajvAm;go_+u6#<zyt~X`MN{&-;YWQh5iqrmr;&dE+
zTmO|>rmow@@DgoQ(2F5|Kf~%_f@3}-Id+)5ZB%-Pc@!$6%)B|1OEY50l$9J;uugs9
zI`!st>Mi-}hYVcNyPB_3-6`(@16RcryND61GLFofD{-+y8qWGIHDJ^edV;IwN`bQ?
z!=dE3O;Ep8DP`VV**g5?>+nO5+~)jkhFGowMp6jl-2xo>#*2E(SHE?gdZo8KZD6&w
zL2qVmJ6HKGIbea4WJ#}C(KKnRd4i_d_vAHrJ_(`+jUFUCY?Q<vId%HzN&C6u1KsxC
z=SqFgl}<`*&)L%#&M2I^b7xK+KW{(z1g;D5M1zE>B!g#a-0t%`hFv~MkMdU?{DkjG
zC8DY&vR5MeB=V$0IqegE9%^(>uV=_T?32`^u4&20yL>Lc-S4%}xOgwGgH}8mDz8Tm
zbai<K9?nhhP!gh}E423ST6AswXjV9lpmF6Sj{GV`4{X|iQ<df{%i=`S%t-<z6n&NI
zD^R`xuU05d^KKTb!sZ!@AOaP_CZS>mWCXSdTLdev+v-Qt$4Mv`w$8xp1#7zPHeoBY
z*){`no&lafC6)jss6%q9gi4_Z$;lcITB)4Gk(se$In_dyQ2a-=OV0zh+b)y{rFh&m
zLYYwWM@gtrW`iZ{5D1|flq~U{iX(<ppq&YUMsg5U*nudBmZIntN}yICWoo7!r$%ca
z7!)31droUcp#<u()(4x0=NCvQ5{idZ{&ZzNWq(_v%p*|mFHl%HGD~v4Q==2o^H<t;
z5fSn)PQmWk1e?5ufd-)=ckXySbfajOcm80-C{!=(oPkpwXv`Wx9_2373XL3fTdSCW
zK+^{Nb?F<?tc)tN=6DZVgciYq&)+K>$WjZh2qtA0ey~3U3MJiR>jv^PAg@qql`AiG
z9?S|oEp?aB0yMZaoDR_fyYsZnP}_uNVfPHEB96xEyGPh1v}Kj|3VVdT_@1_6Y3)LN
z)~NHCQK4z1L^&^+ch+gkqwJNj3+*r8Ryl7o0C@uSa1Lq&`97g?txzY_Ja>aoZC!-?
z*=Y?S)W3YMfqgHjlU{vEowQ$239sg86jnI{!u}kcU{ol913zdb->TdeT6EX&N$3zt
zIn`)An5S%8k!__?+bbLp_6Z#s&_@!}*&4b$a|)DPz7{q^9}is<Je*B}hl5MpA|;CR
zPfxi1Lum)LSTpYMjY^c)f7!+Ju!+PIq@8Rek5G}#B&qykl3{}P4)cz2yPK0VPR@Nr
zQjfbmlGedHJi{)DLU!0E>4wI<4*%|55+zq_pvXyT&g%yu-W0iYuSEI$Ufv}c9DeV(
z+i7=job8}QIgqWFs6q7Ni=l7H;Bz|0Ts~Z{$6a8W8E8DZCwvj&();|pn{(M6<C*Me
zIy;z^^`vW^8D6JHDo9C4bvK+_;gL)!4tWs6Ic1Mz80NiG6Ly~)7}kR$l6nGGkAjCC
z#)Lo*%ECaDtVb$TvTlzZOO$9?Ff?R_+`P}9YQtvw0|{7W>gADi-k~8MS`9ff2(y-<
z8-O=Si;1JKb7(1jk`^yF;3|jHDUqWRJ!*G2{Zo!HNsEpJj1)NW0U;fdZqV-bp#5cK
zDR$pw_mE%GD`R|H(#lK7*PxA|WHLPi3xgS<Gicu?X$I{x6KJP7*Q7)`Qv-!Pkw*+W
zqQ$@uhKC2?^c@6wm48n9pEE62z5J+e!r^qaTy{7|9sbK+PZI!8kH5voJ6rs&@rf2F
zwV)BgjQ!(NW6cxOcBrz$`SN=`cBdCk+1}lI_O<N-ie!|T?4vH;;~L`~FhsQVzP|^U
z86=)H6O3`TDclq#6Nd8O(MPOlwl~}xtxB*J!S2U}mU-QrE=oo_5{31_<BxL6$<pmH
zw^-V;q$y4oSeC4{VnJ>2^`xaddP%g{f+rspStHZ217d0O0-Gp07(A6^OQXAE72@V5
zk!=okCyj+mMcYN=_BboDZNcspQ&D70G*y3o_KS-*FUBVq8WTGXi>AZDp5*$J!iwls
zv9LCHJZZE<E{evjpIg2tyIB@*jk^<7`$Xfu;IS2;y!lCgOcQ-mEZGs)izTh1v323t
zV%x9Hi|uz$KX8j}r$yuG;4vg)NamdL#?7L&A?_AS+C^jgV%>w9e<B~$iTh7{cTwE`
zhG={vc<ix(ovjboM^42Wmx@~M@%Lx$&O9_62_Ah6a$0{rI6pi$9CgIX64sr|#>Nnt
zEGmvn&m9cWNpo5BSgh?!bFBTwY0<nh?hwr_A#Ku9_DNOre6&uqRLA;7OKrSXG`|wk
zqHXC3_e74xta0B%c6W$;Y$=|vo2!e~e%un$B}=!(YQHqcyW*ucTg1}V5SuKnjGYjR
zn?w3X=A!x1xzcEP%)QVe)^>_zoez4x>-zrex$k<!uJcQ84vAeuV%bo_JPiHF8=PcI
zlBUvVvuLV+swR!Ll>%$T|4D!3s#vfs)+!d%#7&}U?^8-;Y+qAr%!UxP$`Y2XF;X;F
z!LSQ!LsYVObF}NTs%Vc`ToaoVi|gZ^Vo_6wUa^!#FQC~uMY9biTv!s_Bo<c1&WQ!}
zAx+X;8m*bz5~~#p>p=$1{EVNy621~~%yV<xFLr&p|Hl4=wKh)Op>NUmEceUrmM7{v
z5(NiE`d~=CLYpGCs9UtuiF6%^hT^L+a_&&<qG)Lr>E;i#tGfwP)9PMA&(3PYT97>x
zo=MQ<!Oj;Puk{aJ{zKKX*!AnG#U8P(>%p|xc1ARwfm3BF`N$D1jtq;YtuZqk@YvP3
z|Cjyot72XIVwG5TKs0v1Db<-GRX-6P(S}(%Oh>FybIkf%y8bbgjbUSC2oBQFZ|SBr
zxV?l#UgZzK+lefvl8^z#&f^t$&JzMLl6D^z7J^WG=>Vc5?wq91ITAqtpXvnh6B0P{
zfc{I+cR&?T12yg3WrT4maAnkKIF5Qles4~KXprVMr9ilV2Dp$<oRf06C~#6W2%2)*
z8Q>0R1r0+8I6s1rK~7R;G?I2_G7KncrSv|6EOt)vr-AMWvh_Jhfv*7_xO=#NL5Ez2
z|DRE8F#Z?7?*J{(DQKyKH~F4gaamKf>g-xhKLh7x2KIcNeOISf^hM`SFK9=QU!0RT
zwX&)&JiS^$_h+=$2|9=<K0jAfv)(*kG!KISGZ75n=4;LoHl~k9A=D@T3kf6I^MGB|
zoEuQXsLM40nPGXt&9BL*7X|Myo^7@nB?API{O;i?@05=p0s;ajjtQ5fx#D(Rl{5~7
zX5s008?dW)$^$sfIp!Fj;BA-};HvYoM9JWXnu7N}N#~oKa=B()Himbio{-YOfD}Vh
zNpls8yoyC)R3vE-dX!XGCnYVwkWm+4I#gqq3qEu`vmg%tV<=0;$ted6e8z>56OZn|
z0Q`I(!@>oLB(0xi!|aD9P_zs?yC=No!}f^dgN`LlX{ZC$w1?ZTcLh6xlZX>EbBK@Z
zk4`4&D!IYl@ZN|cRvg-!U}}S1s6kGR(H!XtzZLBg*-8W|%%Sc`cer<%sT7&Y1XI1t
z)Qe1g+#ElWU|N=$T_UsV-k$ph?jA@mhl5=!3>%sXzZ&t2%;sf7wP>hL7;2Uc4Wgj|
zFvMWO(7LSOBkK3ubKM`kJDSiRS=M)p`tE;l{bux6P&^wvvSKRy$Q<d6bVVlNR~jCT
zp8brBwZ__F4*2PAyal#zOOt47UN*Lg#<qpCi{^y!z_Rg}XgroMz7Cq7HK$S6GFvCI
zbqUr6Ghqs5JHj1N^25W+%np&+kzndz{zauxb+kWvK1Kpk(9a!?aq-;?<br0QbwLw<
z^`>{xEY|K9iw-PXdPGZ4!g4%#GRc@Dd!jpI{v~GTl4d7Ah&GLUThdKlb-9Nx`}qr~
zLOY2a2T9Aj{8PNgiR_7zkoG{<Vr>Dm{`>m(4I9~)l;t2_bc@s0CEJRndPLUc13l<=
zGGFKu+aBEq2Dry0a&-kQwpO|m1gBE;J=iTOxZ96BN}NWr=aZ@n>%)d26<D1-;Y5Gh
z=8fbDrrpliHp*ibsC+t~(<r)(BtrTS^u$r`(g8XXSQBU*8YIA0QsCgL(Re_c5czaD
zr&Xk_L)WG0<Oc2Y(=+X<4ch0YXWFYaXrG^+X|LX(eSUhTz2+<Ab3-BtfdZ{e_u;_8
zOvwe0ti~!&R*p~k{FUGwIWON*Nm|Zz#qD(QC}zQLhKDm-<)edx1g@cI*59Z$ipz%q
zFmWW>Sj7-#Mb7dZ^)MVj4#$WUete_}PK{&?sbB({zAT3wsbH`wTG`>_t58ubX?nZQ
zck=0|gAd)-%3x4d&~yjbi9ybBXl7^19|Wg1TW8ySyP7-3yb#Io9fFL^90U=*c6j_(
zka$F!W|=SpYR(_+6H9j{=*HVu?p(WdZLxKcdvHiRbT-j)PNdHzX*P5*T=0}qmuaz{
z$pm+7ddcYafrFa1ac+>!d*LBb;Mn@7`Rk~n0apyU$Hwf~Uj=_1$4<b8T|;yMJ&?xY
z1L%QF8bl1H{1a1tIo6^&3C405!Yx_L@toay?KOE>%GO;B{;xplIQ)DKa1#DINURnT
zta0{m`0zufVo6i6#8f01i)>;ZGSy3(>LsT7d0WO7A*Fu3J9q>fKgJj#!Ho5Pa9~N(
zvb3osp=k*nSkW1SfBDF4o!>mS8PL5s`bNC-&g-{c|EBxf-miNfnooqa;M5@789Dcm
zE_<d?v)W+SGn$|*ks47`3g$A@9yx|Q9dLK_q1KQCSy1FXm_KA9{qsMX`%%>K@moo{
zVAd2iMZlz%McY3;bmLIGDzUi{+F{Sak)St4Yd>we(G({W<qdyowdGlnfzqy83Dy$q
zl}!r`@fwUBaEQg3R-~|==q_PH@(tXCjf@C(Qu5pwto}6ta06uZAJD#7&4Ws%;LAsP
z9Qo8eDAjywUX^xX0OUg?8BPNj9Ss0t>OBM(@mHJ<m=sX8IDW41Ab6R>lQqgbAKJ0v
z&o_p&iz47}K>*iD1+dFNJ)jp<`P>`D6mk?YkNlg!g%m_i;`C|5A@d#08fV%8$}|$l
ztd-2;7Tq=|dMscN;7<a0%?uo)tlE$Yub1k%^+NR2ipg}3N>D+2L(WVY0RE+!u_(E$
z5#@<gr{~AKd|Ui21b<lwumTG@nU#%-O(k0mthz9oM+X*r0T|a~F971ynC?O(q}2iK
z^OsQ}tpf2?;U`fYX5Ef*L-3F^C}1lYFgUZ1xgnA_foKTy^E==HqW&7?u}Z8#IgIi@
zM7c}=8p4{$CE(9PwWRhr$0U<1aVljKCEbjD5PKD>p$Q*yq_c2-Wu>e!8JSzg`SZXt
z2R~mA+zP<?1*OXc)nY+)qM!!CfNb$>U$`%&|7b&~KdcRQLSSt6Ex_tkfMBhkPknLi
z=C#Fr-yZ(@@I&KC2$Wd2#){@V!DFDx+Cq*{+ehY5`}NZ(zSTMxh^s~G&Rp8#!jgG*
zj*a%m-u~j9o9{d<Y+u|j7Is58&`=mD`=m2cAsV&@kFMz0_ouH<|MXhK@x87z+WqN?
z8z*A?-}c2F-&eFeD%-kTW)sV7@!D^wZ<()|hh<$MQ?kYuKYH_I$Q1EKJEL9E$!J$(
zTBNIzI~wASn*$5G#hSg(6ThdcR?4=9Oe>~}=*2Hdh=Q6LAa-deoVA5*KkuIJo$E~)
zs$*|{F>rI>9(CV%*O=IGNHiRJupJzV;1Mtq!Q)tgI+2D{5(=(hjrj~R@K+u(pnfr)
zfM5g(P&4~WZ(8#yLJ1-Zz-l&-M+)$z`cIHYWqs|Z1a;<{@+BBYKpW5n=z!j@SH>b}
zK=bJY8p1^>upTgQlwfd^0Y+fprfK_lGy(XgGsQXhAY|b_VYAQpUGTNR>F~Mitv2w9
z5f}Qb!+9`@z@8{J<u+Ev0tm**mjd6Be$;>*#7?t)5Pdq3onRJX|JdpE!j+LoyJSp7
z*JYR?>EOQ|Q)7Og52^9&Ya-v0VtH6zo_9I@_^trH;{OhK@4(MD4UZtPVlEDzcuX5H
ztm==F5Z&E-ujKxgyIUU8hvBBIPpRF#(D|U@VQsId*&gf$2yiM^^^7G-n&Xazl11Hv
zitlC;#RI`!h|21%k-#dYDbNOc5P~TR_Td8t>xWhpbQgN{+0;Dxrv8M0C;vGj6yvqz
ze+qf2K%RT^7<@&Wf^QKLt>pM^hz_6T{Ff!#G3EFAr#vo6dldf-MpBQs;j;_CJ)ht8
z_5`28a_3zhpO=@^NEe|%fy5j`-{Vr%`s1Ed7H=DmR197?iIJDwKI|RiZV@uH{4r`z
zcZ_?vsWI0f{+Cb$O+@$}!*f+llH~6R_IHHw--wFe5zGo%7_`2>?fSMAx+J7U$S1}x
z?p```c8PN>@jlV&UnPhms-r4+omQPu!FAL3tCBCvylW%Lt2&KQ`v(J|-;^vWkJz3S
z&??ocg;3G&mtQYmRrQc$^J+0sR5IT<*SK1eDz>!V8M`%>E}kTN$$xG9M}=-x*h?|H
zm1t<ZQ*o=}54gCdCRFTN5$dHFk)NJbnaRe;h51W!msSbL#(it(wfYKCS`M*?r^ag1
zlGL%wx=o^P)2bRu@F8W^9=5MikYCjjM$0n0MP#?E>QI@6^6csG=~X={83=RnDuZ$+
zLdz^uR*|x<6+rpv>tqROithNd@kZk+0oeuWK6{tN*#{SXbLm$w7^q#c56bUxetCRa
b9G_l8wQC*aWYN<OqF{T%RCArdr{Mnp(r4i1

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_718301.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_718301.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..27e0d63f2d39d7493e70cecce5afa4871ae1f41f
GIT binary patch
literal 11366
zcmbt4TTmNUmffvaOX`+D;$@5h8O+1xVK6a{<H5#&iH%J{{EQ#b3bhd8Awjo<ZKahc
zvzd*Qq!uwVTgaJgMNUms<k(dvvr{!>Ypdd!pULigtU96ws@GfPs>zRkws7pKeSB=~
zx!r0ZV*z&dR;lmnoO91T_ug~PJy(CCX#)o7KZd^?U97;czo3ee3NwYr|Et2Vd5pmr
zd;+^D=lDfjsuPo{i)tJrFc&^1QBsiQTxzGDZbLPOU{s8n(J<Oi)r^kO-63zo7$|Ls
zp=b0jh(WwCh93BOF|LRg#z3=pu`v+5J|io`bIA&EMPx9HjOIC{i^fnfl(ZgCjp5e2
zF^2veXH0JVj#*hHSZ$NMUb$bUz@;85$Ze6!OyLIYmJQmi8?+bYZyzx*#qX<cX9iaC
zi+W}!Q{uwLit=z&3hgC%+RHY8-?jmKxr<`9Z-7&gzkS5S?08>uk!ETn?%>p|PYh5U
zQ8SeQWd^7h<+UpRxQHsV5l;rD8b&K%Y8l)6_{Bmvg@su;TCU@byB;DY2Ol1R??ViS
zPc<r$@M%<w)X|f#^$gfgAHUdVKlM~?@TuB>NcF$*+S%7LkPp=eoe&M)z@(k?JKQc#
z)T8oM2Rp?*45JYU^g+7eA=+4tDiJ>=;)5bSAZncUDL)G>I;YP&;&F4LYTR{Qq*)i|
z^4tABd(g%DSRG)oh)q_HK1fH2y3?<pJbuPL;4Fihk`N3U=kZQJnaBJvM>&ll7S<&O
zzeC*4K!nP+fK}zdZp(p1vtO5Z4R5`j881}61+11Y%EE5vOZe?U4Tgm(_%gmC2sA=F
z_#J$S)K=+7VvrJF&Q}IO3VcZxw~DU>oT{J}!-4=4s+K4~4cZVL8(+;^5uF@<khIn%
z24CY{qO+5?@kP&tmz{@%SHo}Pi=PXxSeb)_SIcAkPOwVY&j<z^A+`a3Jc;O_UcMIf
zpuS9xUg-(#;&Him4UbWynezq(hOb$NZB%+fbvaVWV*z<9Uo=Aav$7h?V-4?UlzD{e
z{bmJ}!E-3*+bcT0m@h?qDA-Egi^cFOH(=!&c-1rWZjfawV@i^-NOLtQGkRvOW~C?8
z$g9^&ir<J{fr7Q3UPiWsN`GkgdYS+MyN}T#h|r!q_-nmQIWo#)dH7w=%wIPSE1PRY
zL(N;zs9Vn;FVn!+>}sfG3mT2<XTfWq;iGj68oM{3k;}(kzJ=ct1XaiAgP@;6ZTw!o
zDW~4fw~bkq9k!NlzCRUB$G87@TuJA&q7}_YgKy4frIm3*`}q1C+2pa?d^5jK+5JHp
z=3NgfpE(`8e9}?tF1}7_ed>gxzPcFx@uzBxug}XLk&nNzT>Fs`W|rrUXLJ#TX8+6@
z(%EzH(lZzuv`3!7kamu=y8HQ3Mm635cC8{uKILocs+4$we@Qy)9sK?~2E~iRvFo`y
zJ&z}{F<zr_kOk(jMqE@ou6ekJ$QrV6Fj0$!@n4^Eu|}x5;U^`q^Xf?lH!f;?{!thE
z5b3!_oUKHeStR@uqG5{lxmm}g-NT4#C*zqBRg)gCsCBRouiGVRkUi%_-N=N`;osLT
zYUE}$R2jhcu{(g2sA7D6(cqeJO}f0`1zZ<39CW!vgTwEe^f>JfhH2~+H4fxEh?-%P
zvBd~cJIqOKy5ZoI)M|lN7M&FqIgp~B^RphtWp_-j700v1;hds3+v;3{b$UfZhQcri
zVXf>HjY@lPYCN|B7;e@Vn6h&on0g*ZhD9b$R84`rH1M$l56F8$MHpBqdc^{z=<(Vm
ziXtf!21MhChvobk9BOSmpdiuAWUvgrkr57B<y@(c!}1_$aUefAH#(foz+_+o<jsos
zxTurm%86t~u$)K@+qqHCh~GZ!@k1?`Tf-e9J}eT$;LQO%eC*SrDhMA~E5<b~;!aT~
zaRRc{I_+pjah)KB>K~W>=k?aBK6ad&ayVVBqYme|!$0ctHiIkb^|x}Yv(@jKoN9$y
ztH<l_fZ_ZwwU(*tc4)H0hVc8mcBc=vMQ7WAeS6!WN2FyS`?!nsx+d7SfH`z5xPJlf
zGK@Vrh#BeG=4f+#Xvt6&?zvByW=};=#iy4jTe$Cjfn{Ddr;Fq9L+OHs@bUHamC~Ao
zM<{Jgsf$+3mQ+cdV6F?lx?(AhUluHl;eq?slGydcD?(|@0+qJ@Bz$s(Dvj?;R0!Lf
z1*#?7w?Y@BtTh5%lcWTyBi#3Zw!|(AwC&eNzc_yLc+#;@k*@6$=&tawl^@ZAsGa+y
zJMNG7&)E~#h2p&ey?0^%V(lOB#rm%f-+NQoHz?49GVzg5h7#)d`8i**P$=1*^a#bB
z0^PY-cdzIV)AvfhZvFPSaPX`^pA8@T-cmH*FxL=2nQTgJ@BAnBo8Z^MCCiEM!1pj-
z+b@Ub-E;1^BT=!S6KtL7k^{^1%MpCVQWig#=>5``=)Yl4PA?o1S`Xi=7g~=CJC1)l
zCRAKVT^<p(j|i5L6;n~{%qMNJ^HE>IAeeSPQsLG;5#0l8d3@$`N3tm4zVYrt;lgF1
zt@~cT&^91c4WwSbC{$idz2y;hcm%6w#atX?KIx9Rqwgkcg1IK~wqR-pGDZ6$<b$%x
zPo@*K@vAq?Nt;l%Cpj&Y?u}3@WtDON=R@n8(QfFE_Q#GTN|Nd?9ZB8Is)aVe*0I>L
zL>-CXIo)64$&R(|?j@=Vx@q(5`RMuB`NaNY?Qig8{msJ*Lqg5|MduQIG(y}r70kM$
z?$~JJT(b8!wq*ZJ`@*!a>%cvH$#gWLS}7=my-;9FoEFRtsA`SzLP1S}6U@7zYAK$t
zo2&cO@>%(f^0cKk!F@4vbLP(Q-LYF^>H3!i%gc*z2!)523wnfto_pPY?Eig#y5M9)
zvqD;b$<EKr&A<v3r%USvvOZ#5Ax*KSM5$nDNCIYuKz2m5sO?aqUa&SMhXiZOLZe`L
zMIc}KP`hfwOb1tYV)~+4Q`8g-%)dSN_Ht>nP}-a(Tf*HBOhrE*imRpN(+j4?<gta0
ze=J<+y!G0mM`-F7O#R`0SmG=UE|_eIk>r`*v?b5q^ey5--OB=f5cZ_b6tn%5zfT%w
z$tW2sj+f3=C2YyMKa*|WLmM5XW3IS+&X<@@&it9&{}_%mCgRsb-SkzL$35y7wVcy2
z0XJCfv}CB*pCACOFW{dFKqu?+2UxEYX#yo7KSsK7cER@p@&o-m#$#jId#3^h{(Yv%
z=}tflPO1GA2WVu1*QLwQ_8}S4@<hH~M!FY$sOPmjp0{6xj0$*1;Hx0dLK;)EHfB`6
z0iHxRi=kb^*nkgd9N<EY{1S$c{6p#1m8GG}p`qHC*G*}VIW#ok7C+2NPGh+%k!g#P
zQT+%3Qq6O_h1NW`yE}TtmkMbjWCXAo!~0}N=Le5cPP`7u6K<wB-0cZog~kAmv9atu
zPk{s}s1)yUgZ^yH0oGu1{QUiE_?j*7^Y^de6I<Zt?_a}LZGoS^e+^%KJ9CS{F<x^T
z18+1~=JCQwtDX#S{_0^@H3WtH9(TYO;8^6?O3td}p9ZUsOMnA1C|GOfXm#cgS97C|
zDVG8<xG_ZWY3Z=b@YRzZP9hU59+J-fy5?JisAXI;9;Zw4QJuL*9Bo51mB;7`_IJcq
zfu|@OdIm>ZO1bXjIR1H*K@_&LeB>2)=@J544bd1OKy>QC9N!YPf~T&PT^qIrRaK(;
zRNt9yHtP^`NNZJx!|WBvMe@*uV{({rbOrZhJRk7W0uGRV&}EmrCa%5Z(1Z^J#&tnK
z2EGKSlH>MYVeCF>nl(m^vF?~ZJ}8v#Ns~=?X70Xy>+Qw1Mdn_Y(Dg>T^|U~qULmQ-
zn^E&4jcS{gwIkL@k@j%lfGJB2-acADQ3KAWb5zuT^X9+KjsmD8dC3_AMJ;*qjRy9w
zP=^D3hSA4~K1gk|4EjiJzuFC6f6mmA5>Q;tBS&NjY};_&EC=92@Z&y)MgQ+Gwqm4a
z4@VC#87ori1F6abY4{o|P-|zj^S$11cX%2M;Vc!UVnb1LxEp$6x_Nqzjyr^c>O`AR
zQ2U*+Hl=<wRrhKdzQ)?8A-*$Kr_{ZvoxN%J8mm`~g|mmEhvInjaC|y(@Wwj}xKP!$
zFeX$U`ObJGrG7JY^vyJUjYnPpQb&j1xnEc^zkO~y81=&Vxn%d<S8u(#*!@la*ZoU{
zy%FsbLPcrAy-!F?V~N!Y>e3ZbAL)!8iyuoIL&dg;12W0Z7Jg)m4b5MeyAXH$;?fFf
zmTdfVn%oxe{H*InSJIZ=-h?EA?5`tDmc{EnYrfH(#M9-wU$oisq)@NXt`=dGC45TS
zKhE3}gDzNTV?XYIVB1!vcnm?VONyxpAv2yQV22EIhzO}5D2Gb{E?hEo#0g9?<=GJJ
z8d+p802c6gTro6bD2}}@JvFj%T_;rGF-Ubst!MyQe}vS)W!6ls;pBzYfbmiz6U}IX
zKp&h7wGrdBsGLucEBuTpPl#*eL3=S;g_DpD45LJa*C99H|3!=BwfRCfOx9>@=2~sK
zo?2eF1!WXLSeLRg$kp~4m~7u>yGX~AV;k&=to%rSsWNQ7U=-Rvj1KJ|2tjAVW@GsR
zMA%rK@J~*FQ}3@*Mq+e|o6?J2fxCCe!0UNZ4zBYC$aOzc$wBrpn}V~JZ_bB88G^qc
zH%6Zc!GoNFppHZOk6(rmo&HC!q#jl>pG>v+&a1);>{4*qHamB`ZbSu^)F6k%Smc_W
z0V}FvJd>hs+~t~rf?F0r%MrF3N|GmXi;%67WS`(DVU2|%4$-SMd&YX9RaDP-TvtVn
z6!>CmQHyHQaSZ}szJM1(KTa^IQ=*QW4!B%Fmk0qdFT`=sAaw{<12%YHyKDr(p~u+W
z@M$#4#!s?#$p4V7o#vVyh1^i)xF#D#iH7PLL}0WKBpG)xBJSZ3vx*gjTsDLBQ&yk-
z0AR-9$NdRb5-cAmd{tESk!G1J6UeeOSuR<(9J^<vBEe`^eCRu4WlCL{GFCnS6m3)+
znU2|F!MWDNLAdZOljypbCieq2MbGv{`(lnnQKT<T)g`6{su5xw`I{e@tT9(~GVX`y
z2i*2d*2uZoNYuVe)d*Bgn%cEY?GdOw$?hbZrrLoDa5ED<7}p5K9m|GV!BCqv)GZsD
z1VdADXn{x@_Jw;^XzT1-(YNB=X}WTmt`_L(G`(|~ZWid~G~Eh=P=!)#$CjolmMNP+
zL7`@u+9goC(p3F2)h<x&X(<e2pl2JR4Y9VE<D(Xc3DK6>OVLYlTYM;CyKyeQ{Z8NA
zfm;Lj@IR8jCzt5s;bQ<1Yx~;^5axhebI&Juye-}lcfe0KcXHWUD_CoPefEn>H!r2F
zZ3{huwR3UkUg6hg1xt@W_C&R-D$G>!0GPiJz3|b+WqPMT?@ZIR;bRYg;S<plv6*>(
zj!#pyNDPIs{qu+B4*jAl@lwjzkWx2DmQ&hV&Riphj+JCSt3lmtWj^8lvWZ%R8{;Ou
zU_x=p#KJi1lVoDmAuv}AjvU>PcJmt_yk}`aHD>4W0yjTGG03^MJ-D4`I0x1EHjGa)
zDo~BmZ8`|j3F&kA$@32i9*h{gqvpSBYHnxv1chthRY<Lej6C`u4!mmeMp@;CC>~xv
zpK77O$V#t4Sx&%($Y+{2mxD61kcl_(v~*vWUo>=z>K`Ev!Ge4o0u`;>Yz0A8Y6m3^
z$X*2mSs_aL50}(bqn^En+L7{GQ)FyCs!F<2Qe(SNRnleV93LL3E7^xfT1`|9*ssc}
zO)H0K*uOyl=+yz<7<?0)sBy!411M7|dLydQ{S6c@+*LTF#&eV$D$0t^81N!hC|z#Y
z7(o3s{J0<B18QzZ?PqV^c=K16l67|*ZZ+KAz2N$t`z!Z9cw%QG=O7YA7tLOYUU}~r
zc>3H5X^c3cx^Q>SfsdE`I`Bp4W@z#JH*bCY))IXZ;-A^WZnngx<85<+=sOYheRI()
zALZlS;MhYf@9yBO!6ox65%o$zQQROD?1a!;LCMdj<GW(l;N}1|Gm3#}Vi%(C0#IRD
zyko91F_bL4c~&Ucvuth^%&ouG{Eq&LPMf;`V0%@f_Qos8T|#+lMEl`%tTuA>L-VQ`
z6vwIs9O&5t(E}eHOsR`yKN=l;C1n-C6KH|Ijo~5H=66&S9D%?|?jw2jKq^Er?2amX
z;M7~t!+Ch*e*t=$oWDnC_#999GVl@7hIAnk4sO=(MoNPR?~GU7&V-Xf21dghJUARj
zqrAD%*@g`kU>vL)itx~dEUjqtyWp|K>EK-Uwnnhus13biG2YC(R@;8bZc6vYMoPYS
zqI;<P5G7gb)2Mnz!UW51ABGneyS#bfT?K7l`;-qlMBFaYnHP#o5K;$!jR{QnIS%~?
zA$MoX+qy_*&d0JYr(e0bv!4R&ui(dBhff%LP*@Z`@jXdP7xtkz4x#G(zb*dVj<0qs
zk%z<GoAlJ}Tj;*Gd#Ub}psoq`!FBLt!uEv1id*2>p?Fbuuj1Qay69r~)GCGPOJbo_
zjoPdY_pcUUlr=mkU-t<X$#oE<iSkAji{$?hgNJ|i?@@zQ))r$>7R~b9TPEP~FaYm4
zBB_*E8|o(=0l&{5@VZ28kM#c`Q8niAi+XUrIKS)K6e|Y{jK|P(;~AHigXb*$aj#NT
zfrzD5618%tylzMvNFo!Bvas!L-vo0Dla1yTY2ZVXJ|-~X>SDiyDl!+`pFx$cs&E|t
z3r77LM*llj@c=IfmwZt5UeyD#IHE<j-vqnZlNvgma*YTj?vy{UieX2I9s&-TzL!|Z
zLUGRp^}Mu>KF5gc;`2ap&jlsXI+Gf43ninezzoc>hv=2&*q1ZM=NnO>H7b;NQZrY9
zRxi;f(K<$~S`D=JhZ0O*wqh-hH9pyHB8b&Wj37TKf3JL%cp2}6FoCsrzG<#$wOFpT
zw%wh$HKEi7@KgA|HvMy^w?u(0MX)8<?xwpHw<>->wZ|%qpdMEt`qfZ<G=rDnmPGNg
ztzEFSuVPSHJo}CPYr9lTox8Mr&MlmC%eCp5|AgIycN34~OlpOByhgl1DCJ?oO#sv|
z!67J=DLwBJy(;K=mv~(TJt%vOhI`aef;Yy_&R?Fpyoy0F$vsBdqrGOlBwqYk)s3oE
z42lc8mfL%T_8zJ7ZQt_AE5gYuQYAI+mGkTG0Qn$3fCfg{V}$p3Z#iy#bO<xoq)oN&
I8Kr&ye-43@T>t<8

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_731602.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_731602.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7f91e51e1e9bdb044f9ed948c62ec4e079e1494b
GIT binary patch
literal 9375
zcmcIKYitwemNT};9^2zroChQU9P%KBkPt!%j|4~{36PMMLJ6dyUdLkxCyt$r9Z0g{
zyQbT!HdGs@cdugZ)e3WOCBg-XAXRGGmA2_>rFI|Ede+>HcP=YMy8PkKDqVV|-TkwB
zz8Q~gT&L;n?tYTzd!2K>*ZI!t^WW=q8Vu6MfAs5XKP$zs-=T_>bm_v&H5|hhFdCzA
z4>l;~_#iISW#jTe1unJ`gM<?wr6lxhPRpE%QGK>9m1y|}?TQWBi4EG7h1*>kTJ@gd
zVS2bhQjO6?H0i`fi=-K3b6UMYyJmxS?FQ|XQ$y<t_qixq{~j@@rOg}80<c{Q+5k`#
zK>Z)i$wksepsJ&bY14c7pk9VK^_iV9%;46N7ics3d8)JT^^?7}3ugwqZ0BC7z1r8y
zQ$26K{?;23r0T*OeP=G(dL3J`n~IT8mc#GmK_z0L05Fo6MrBedo74Cs*~2tMa7zxX
zA`2sxSOaT*n5Gfjx(Te2EzZD}v!!hLEP-Lc3U&)yF$*+;m24$jDzt42s4^pLWw*`3
z<zP!QxZBxnfU|uT)-nrV!5snxs6iW|W67CEq4mjg)>p;uV9jXE92~S;d5Ole>qKL+
z1~htbCu?Dge-L(N<pQ=*z^-Pi*peTFT_UYrSZ@uBu{+_~WADpo%q823=0hMlYz=Bf
z?det}YDG8#9>(G#L=GM);8o}0sb0aubM{6MQ?G6gYi5gGvOuP>kmz}&kX8_^4HzU)
zI+t=G?lQ3@Y#Ex1ge~Q#uqb{NI67Fz)`@#4!m%~NN_VllXk6GA)7TJ(F)|$U{#(u}
zjM5CUIg4d@zJ3!(JOgRXj9w&g-tJ8><?L=&EA1^?%~Dc1Lvhb06cj)~Ct(2vy;ROn
zXke{0k$=v#Qn)RM8`Ky^t7hSTkD9ZqmrCD%ikUI?vU}NvS9wObqkHn&V7y=>Tbr|{
zVriso&epSy(z(upvJ2J%f2Yr#6*(BSBJP!11+Eof@hJYGQh~8$w0!Ioob)AD_MN+-
zmiCCv=W~tJ6Ku+vBPihf#5S?Dh4zb;jpoYPG}>r+K0a`8TB1rT#jzP|qq%N8Pl3B-
zIdiT2?nprO|6#6HvY$c1)Qa;8`?TBt0<8xs1Ra=}aK1pd_XQH1FVO9_8hBa2!)qoO
z-w0zLx4CIv;h^2udHJ~8%PZ}S-8<ssiCHJ(^Ybc~$7c_;?B@xwSpiiV@O`|T_62y2
zJ>VO6J8X8EX0$+?*El`Sai=$63(W9@Kj34W)_pwQ!Q-7gev()E9d?h?&mczQ)&2nE
zrkytXc(yo}DGqzH#cZo13+wRmhBO6{s%<2{!OQE@5W->r;MKa9$ItP2KacnFni0k~
zHDU9+0TL-=2JIOGR|I1~mtYK1dAxiA_Db!Y8n;2g22+uWUfw7b-CmnOiYG;ifT4A{
z8Gj&+LuCg73WP{V$h=~0j92<xE<bdNIUI>lALHeAhl9t*cw!9BY?{aIJTYuz>^FGD
z2s%VfdK<3WJ-k|6Fe)mBZSDg+KFljm+7KcCK3Iz74^02{M$-)+Gv=SLJDg3|?2a*e
z;F{07*FFMA-Q;H+O#$clL=)7S+}^+e+qgY2KILhgn6W{V4UReB^V%FfIPBJz=7an8
zLl3VLfox+=#_RMjr(srzMg7gN{UPkza!jk6+Z)*%JO5O(BXshav1maxuZrQZwxqE>
zbSA%^DyxpWxw58&qBvzJN|e@dhPu${R8e_sh%2&&dY_p~qcicNTv_81l{B}9`chO`
ztR-H_RqW-c#!y#EXH1x@IbHQ4#Zd=BUC$}~+_}iP*yK~HD%7>6H%C33e&@$;-oJA1
z%HrfwL$dZbr$4^Z%;`>rx>K8U>x!a7oUZEQ&iiNXomsRmRVHhWak^un?ln>!zVuN?
zG!X5H*kUuBu72_0QqAZ1(yj-`m#=Vpx;b4pNA`p|Qa=>%xrUmnkJLx|;tdIN(<jWQ
zvrlH9YC1zFpTi`Y|9p61WPT)Ok5?|KxT@A<>7iBK;V_;unxcK2(GqXvjJp>vamJP~
zk<uEYrpTe_<gNC9p-gBydLlj1j@xI$cxLZ^stFV8O3YLwVh?hLrm*5!N!h}{{6Oqd
zoL;nXb#2_Xw&m+z8@S^G+_r&a$>p%-S#jw?&wNj;D}HM67*}(ct315iz48v%c7dzB
zkSx9!Rs+$ZvRHFm`OC@0n)r=-hNUXb(!y07;7qSAn>l0Ks^J7@IPo_{UzLAZo;37@
z6)Bx5dL~ByvLiOa71wdPy2af~7e8-a8sK)fb5wg6Un8|2GIQ4>*Q55B={C!e6=6Br
z{-Ib8oI3E1u8AX?U@yMYb_-v(V)`TN4H#*Nn%@266s-5s&pTp)SkJsIKEsvl<4pUO
z4ldXHHNL#-$?=sdTuVP^>JKZQk(xPOL>G0%9CuxJT=Dbw2ks55*0yrBt;y|&enTE!
zqjb^IpX0FuG1dHz_+ie}uy}om{=8#p<iVe;Y~`BHa;CE!)eAcgl*kAfHAPP@bkBFk
zn(wyWX<Y@@t=O9^Zu|||^b&3k#^ckxYVwBDJ#sC;SfD|WvrHrEQu?L>6H@^P5@u3D
zicoMoJ_g<Kf#Cz=0>)yaQg2Q^1pT)RK_!cC*lP@`SQV?Jab#+Z)x$kjoyBOG<UPHM
z3w<y;m;zF7#_N0+51@GnX%q?Gyu>Oc1sx<=BGj05Kt_?s$V(AJ#ORX2N(!07SV04r
zc$gkPNYKil8h#r1X=yx2(W;;>YzPBIntYE8>azwis~3z|Wcm=G*5xpwDQ_xJrRCDx
zH|SSo`tgGJoAqbu69w@%>(A1cZGvC8KZ`Hl1ix^91|OXpt7H|dn$@scmSS~})DP1J
z91c#@1<b1HXHdXpcF%yo<Q7mNjC<PBYoXm>bokvquVvirhgQcmOFihSF(+*m45L|V
zuVsA7AFvEN0rtAv?;iFzEyFXGLl&2hv7G6@c))_--QJN0GSQMz($4E{hx5e=7?44%
z<VYKdP{c5FkC2J}5*g(`lWpd<M{pJ*Lx^7_6Enw5M3!4#iU9x8g7YZBBV!oa<cNk#
z2796C&oNYxd196EN>SA^h!3rDUU9DLVh6JaDog`>{D{ddp%BvpIT#IKea-GlYhl_s
zIc4_-!2GcZ8r;9XvCZQHYt4VG5dpr9@Y~??A0g~HRW#Qd=>=VUAg<>snv&GMPY!;1
z^vTiX$(5RwpKzU*k}U%qHISl=(XEl!*9o~%vyREt8s-cTuo5}*e$~LTs=;QwW}k2}
zZ=x9*yv}Jbn|wE%3|KBUutC9|bX?;Jur&fR!YMJY1E63#fNd$5lU5UR7Pa-Fj|F{@
zu_*{arVo|&!iSgl+9r4sK47>y=?y2uTtpbz4Mh8zXE~iXA#Uf^4L6bjCl@;nKYs^s
z(0_)obrPd=bFGoqo2Nn@p~;l4c<yTC>dkJb_)}Vav?@9|Uw5lLq3B7J_aqfP;r5i4
z3QtB}i+0>Pl2CLe$~u#Z&hU|EhLTl7EoZ2W+mnX+(CIamF7%UUrqYFq`3lhSrr4#$
z=EtoMT9=!@IP}?}r>0Y3<(jz!OrM-jF;w-2P|xob3PSTOg%L&38ctD$v|wwrJJucV
zf}*H<Zfm3G7cS3Vj@f_uc8WC2=_C5+WRlz(YrT8y&auU+WJN=Y)C(HVo+P)#>hA8n
zvv(0smhaxMSvN;TsOb6IhFHnn$~%>D`!9B&k(<NzXnCrnYKi)~4YI}7-<vgra(xR%
z6@|_TOytPDGl=;SYrotAx<k-mxi=L$P<kk4*l1ePr>jDi=|k+8m!v*$ak0@{?U{x{
zx-lpV%0d3)$c?9QLBHvd_G9J0fE&x=@KyW;AyEQdh>e1ypPvLBBIr*R&*&pGsx}`I
z0%Dm6a-o>9q)~zjR#8wUgO+=wk|c{Lmx2VqB8irl=t8hckkbSTD$wLC%no!vp~YAg
zDvy@r5rC?+^3k&I_R%=4mSzIlT_I9oN#sobuV|@R)hH5{d5I=6yQ5;sO&~~Cz0pb0
z8f58YX08q(#U!Lc0S0uoA_fHGvS(K)K!A;ImndcPN7@WWXaZGIJFSt{atgb80M0=R
znp2I!Jnzd`E##W_<zldL6CNrs4~a5OrGsK{Z)QQ11~nfZgpiJA^he$?IF%oZN&Z+&
zmmKt^P7IOE8q>Ce!{?bA_xdgMv(?tZwn5fYx772v^~HZfx(HfU4%P;*8gn`)pfDmH
zM&k(vJ>CfB3Db{C=#;G{9)}=_!v~smWXd<?he*p5ZD-zsK3;L%?YzMt1BV$vA9QgT
z^y&hE82dB?TzpernkO6{`}hQ}@=s1Vo#53YZN?Lzqg(ci$`1v^tdywqkf|@I`m~mt
zwz+s>+J@pfD6>yzH6kycwoUR%(MaNPw;#<nSGS33P4|jfz)S+r1pNH}0EZaDkZzDi
z<hO}catlXpNs{HO<PMJ9ktD0YXVp?UN)9yGY~)z%{6A^8Cls#4&izZxOVx?jE+?)y
z5|`-&?Mzr)N$AjS2d`{S8BvBOK@rZ*H^q-6$wr{2(azOGYCfEr3r2!T&9>0V6lFj@
zX-pPB74At=*2OB0Y5-5Za5Hk@ossca0K7fHV-H`7x+1n!s+yy!lT__0wTGkjEOsn1
zNoqe(0X<wAX^Yiz+8wK!I!;rU)YPwP8aYiPxc@ton%6=n*L3E&cOvh^I+MB`K$0>E
z5rdscYFnraJXoz>@Wh+J;cT9F2~&QiE1G*d@^-8$c0OKp=TfZVQP<<%2fZu!SLB!E
zQ{9<RH$X(2|LijIL-o;?k0t@MCU!nn6TLCtws3s@_{Xo^KYH(I(%iJvv5Y_I;><@l
z@@Pc4F30qxFeX@Lha!h=A6eB}IIShA-5Kw`fBN3(U!7eAH@oI=vgYXWTVD)(Ht?5M
zR@={W?dOy27ZTbF3B?6btLFM%8Lj$PaMYV=RTKdJzS|kZAsG8T_dbaHwOpMJJcg2>
zT@|342=FXHI|r44jE*j(jX{4XLBeL%QOG}pkqUT*@a&Yf3_zPHS-J3JKxU;noq1RQ
zS$hFyqDIy@D~7L8*j|Cc_CZa~{E$G%OW@mpkG#PQh==KU3vwKuk3=~x&P9~tLLeW#
zDhm?+l^)m^RwebgWNk3=hi`$TR)OqOihfg8FbTrSiVG6NN-{J63qnbhM1qVFBfrfD
zvr>jZ<^hPBUIcAH9|S0x)(xmMh(3aStrDXUeqJpKQHYK*NNzwh(jD;ga)@7UAaJx(
zUL=zQFNB!}lw0ug|1*3*+~`Z@JQ2@rZ>T2)cMopT?W^L&I~zHByAR@Yub9%LHf)cm
zLLJZb=DD%RSgbi_kJUXQ9_t?HmPfwue&&6uKL?Z`_%%3h2%QlkWWv=mmc=^a_?<4!
zxHInH3|0tg0SOoxk%*fXTOS{LaO|o6NLZe#*b%S&HNM!gw42-0mZ)#zcD8dB?JK2!
zhkxCYcyoyB9ZH-Y;ySK!<yXV1kML+qRC&v=u0pp}gHh&Czj*O-jnd4;`xX`re<{F&
z^6z&R;Y9|A@I>w_U*-Y;iFA4-&oH=R6MAr2{~&rqHXs9`5P9}JaR}xSR0dT+GN=w@
zOkQ+JAy`DR@`vfm4B-}n)wpqBe67H)FG4VDfi0~vkpaQ9gcl7ln57LkA)fBA`<=FC
za3_)W6y7IjFXKmeNJ|M`7clD{R7N~0>P10A9!J$K_y~&BHq5JrZ9?#zr-p4Pat=->
zXjmS%@w#;IS`44@D#q!b@&x=FFmJIqF(1P?9RbOaX8sgL`W5{AGw=yvYo_AR+2^Eg
zP8$J_Duze9;|D(}`E=WpZBNPLz^xni)U_;itn7YTcaBq3hq}N)>x)-`&sNe1G3AnF
z)k@{pv&rJY(7AOAQ<p}A>x9Cf4E3xVvy5iN`(YE2ZEcmmut4?#gXdP}ebitSFTdz|
zi_32Gz+2E1MEQAADlzB@iC2KPdySWmx&yo#tQ&v8IX%Io{qTzriSaRT$GrjJ5X9p^
zS6SEzUMudQZN%rHA7BFii?#;YHtwURJkDdx8~`J2;V*~px*W&x-(l2mG2OpnmA}Qb
zpyy=d2jw@**JW+^K3JZ)WT9ccVcjIwnwlSb9(bf$FMbaH$A-U6_ZCU8W&~S|>5X$k
zk)eMtf!a$sCZj}(oieNw@5a9&YVo3!iu!=P$*#*$d3*I;&mE6gK5+Qcz9)S`c};7a
zYm2n4Blxx2dNJSM`f0<HhL@=An>X+>{30HGYhh@9XdOf4MgL17|K@-ZH;dlyItInX
qsmJUCRw%A?ebx76pHNJ^V}FTyU+yo*&EK?PhU%og=B8HIyZ-@=kir@O

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_76683.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_76683.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..03b8bb06166720fae17136cadafaa0982e67177e
GIT binary patch
literal 11272
zcmcgydrVtbn!nf2YhOR`gEvVGA%GJCg%D^HnuG*G35A5brp;v5V|)!UFT=ei1owLC
zj@qr=js~+cyEvU$)g8@loe5INXtbr$NKHp0wYw|r`i{|n?q(&VskF-eMJAE<@z3se
z&h<48W1!7SdnB&U<NLnz`p)@&-*@;&qft*l`n&J_;znr&LHq#~<Ydldo?KTF!~($(
z3^_(zlYYr-BrYq)mDf}xp&-2E2$m!>OTW0@@N69_F$zY>s2DY)VYEM0GZaHD>h3}>
zC~eE5XY@Hd^w;81Ji}x7T0E-f;L*d3Hs|y8`cXW?^UQpPHNymB{29rZhRH><yfU!H
zCTWdwzf6HwHByjUBjp*(HuctR>TTQ9+w<2C>6yZ}Rd+KT%fHuj%zmcGON`j_jHuX4
z52=`vx7F7SOf^#qRAqUn%Ag)}acg4Ax1q1th8}uj_T=XoGBA5#6lNIfKA^}qR@7U*
zddD{Pa&LKfV5KUdw*uw>Q}s4^%>o*3$*z}mmUPxULX+)(bPB$Y2ogRHl%voGN`zA_
z8cx4@{!FjyQqQ$6SKl+G{%1<PqM`fZ`70M>O6{c!ul8Ja^*&M|ISNrfF+J|$0`6fi
zC+bjs#?4N0kHV-c1^S><=v0bipGfwLWUr|9xF!QE)M!2ai6P%GCn`t1v!appa^8R|
z;CBVRte-_gWp(I-ZUL4?A9U_LCGe3GB0}Py{F4S<C;>DzoJLU3TM|PqD(+?|LM6M<
zDsyN{b7;||w<KQ8+wNxi3zh9ctKscg+H$^#FAu5-B2>Yb@D)Lj5!%D=;frwH-hfu_
zh%e*!24NZaqAc$|elPIs3&OmEKo)Xf2~dJMB&U)u<cqPKD&E1{P%dX=Xx+9XhTNP5
zmbjm<<n3RJFFPa5SIw95RbPv*N}dhoJHQkCelP*VI|_yvQk25@cnZlut^5Jhg4!}I
zI=LlO!;@0$CLg0hYryMe8oqi9H!Zh>YI9a4kGbJ(ynRR!$gb5$9@Dd^mgf<w3&<u8
zOk0lRd|IRBv-6kvJBb+iofEKoPTnc4;nsQMl{)w*>!cn<^F7FG(QgoRJaj0h_dHiQ
zU&9|_G>cl<5QOS?p|8!JoWszM73)~TE<8%Ufj7x3{U>{1mRqut8+VbX0(k{8*H(F%
zJ-5j1S*b7Z2cZp427|RJ)Rc#Fv$dH&%r^z$-eGij9gpxY@Xa~p7XAp|g3n?j>M3-T
zuge*=HLEDu3|~J|m@Q;8IT}@zt;}ZRvGYftpI6qYpb<t{2m4*cOJ@d^Yxr8e>X}o5
zYHMTU4?0u?U-$gIhFYKVwrP9L+vY`H!MAO>H4L&2@GovT_eQxT^wOVjNoQy)hbDWX
zj`78ea<mT2P_8}5wMLo!<6q)i`D2TE`D~HIZ0_A#mfhxTCLf2B?q}gJ6HZc8xo`P6
z7Fh!p6cyE|nZWF%_upgzV1-rVZf;am`vW(;EDM`SJVG~-lVtazACssEjEVY5)<4X;
z$6Y=~RCyTRO;I`Sn-Dc_);%%o71hY@a-w!<%<m2yX%^K|wF-)isAT*B5aQ1?H?@jt
zF5qXqqTU_wkNZ3>H^VrOi)uHr?V@@R{jf;2MLp+nk9j#<uftv7HXF3D2->jdc!)YK
z!1@@k%RRoC9nEG3bFvfJTF)k}XF@b*BxJf9-dZssnlcp9AcnV;Cq(@)>z|%<aXui}
z4t|KrNmxA!J}z$31;av!2bEwfa&|&2kh8uC7Zxf~l5F6mhkPs-$nY38y95bpNf7>l
zX-WVMAeyN44-Ii>ZKTW~Y#Oc^h0Q~&$%z`g;+#mkJ)Y_D=`q+9RwPG7?Wl_z^Lf08
z5UU937PW&e-vruWojj;pqDERawgzp6n!Di}3W!t?76a!%I&idzszFz9674SIof1h;
zW;n19(zsw3G#K2$cu;394|g2oIi5fL_xZ*dKRe1zx;@^;8*b02J8;84aTvhnM4*vl
zJ&ghH_+%rL8qxS*h5?v+!{n?Bs$8H^0sn-{;|INJYi)h;2sDUBiN-bRWhcC2tQ*FM
z4i)!Pz>#6%X$wIc=MF~?#|KvQ`@&})nk{poXed#+Vy+Iq@>PL#K|8OFlkxU+L0!1#
z;g<4R@&1HQC~i!t>}zIgs;EXV*MwhLvzEoL3sz^i_o1yQHk&vu6gMmx(zchwudW%2
z<3|z|Liu6A&=BrgGZv(5`vv3vq(LyWguB)YD&jLjK~1=4&18#>38t!_U;Oy>k6uqs
zE!C$FoD@ta!`(Zy7z^V%!C3k8(;xSI)RS~Cm8PqY3&!K&v+G7{>{}lUBvkQl355re
zI-#&hFg7inU2ge}Wx4JC`3F9s<-A}#A3nPVltU8bygz9XiVh}yLSdU=Y+J5<Q2h_&
zgIeL(xi4QAj$IXuSHow&vf3Bw=Ii3GChJq>ZNFwe3w|10v7QU}eg$%xemuA^JU<+F
zCrZ;rhgOaC5pvCHi}~gcCu)-RUrZ&7KWY@LO%d&ywe*9^_~m%5V693F2-ccp+tR?D
z<AS9vqIqaA&2>k+V`mdZNp8h(BtoJ-Yv*g@H9u+uR(p9oDA=75-9w9Qp?JPHUY77J
zH3~HyLTSf??k_ukck$Af-9qQ()VGF&&LN?6C~X-AsnSNS84A}-#qkEgRQFg(8lCIr
zqFCUAf!K^--j`?+%+*PgU}}A=Rv6o!C{-4HM7?1ktfld$`SJuQ6jVmksQ=ENRmQso
zdv#(;u-7F!1l!>VwGLEQ&~!Y4#Tn786%@uxfFW^7FxN#?YnI}8_57YhjZjb*QLj_B
zAF~TL=WoW{A2PR@pErMe?4x7py$wt1PpJFUudSbzeOi`&p)+0FB~V=vdYv-GoN=FE
ztre(R5Dmqb66E}e#Os2!L7*Dm(`+;mro$U8gw8%^ikd)na6Xu(s=^&R=+5@~mS1<e
zmpgw`x!f(ZbUv6BS}q923!prv!oP6G?Xh9Ov^QY^?M=)i1HT+d&Iq+_%auYcC}TTN
zX-%=p@AD5S{TvmgVnuOFqUiTj-B(aHMvbu{(3hd#Q-`0xAtgj|hJ6`+J;*Z32_0YT
z1RexHwm|U2NY)LMNeDvrjzg#&QEy3dJ3}H9&neCk-zR}G4{*N@eTNhwB>)c+!%79_
zFrFhAsQU@QsCe=x#9wFQ7+6l$mD}u=QG?^6ltBU>7jk#EBoxnDq+~D`Qo)#zE4(Fb
zp;CiOszM+YKrB#)G`xx?cn!*rAZ)ND$#WmcIxm|95K+=+d)I=ChNbXY<cR!VWQ|xh
z`;c>iEPT!vCy_yMh~lY{{OhUAj+6=@e1X$Q9)Qg&7#h2X%ANa!)y@O(77ceZdJ)nE
z%H@6-S{`91@tu>f>Uv(sQ@kD^DE*ESxwDKOxfCONWRA^Wpu*5pmhk+mgW<jo!+6ce
zzRe!w9HYthvC}Eh@Y<cZL)zU|7)}SA6kaK<G&s>a?(ViLojI!^8b*|V*GZ`dhKAE5
z?~7rZeL>E(o~L;OW8(EvDB=HYSLh#{0_Td}W)_)s%4#sp>vp=wc+HNj^iHi1UQt~l
zoaTNO9YXA71QorGV5MVxnhQ7vy$<jVe4KA^%<CAOb!<XZ$D{v&ggueV;BzP$A0WR`
zuXhqM!;*$IoMIhFD7uvIC|DGA6*Y|aCO}Z^mNYmEL_Ng)0>0sC|1`%AAp*dg?n$qx
zy6N-IfVYF368O4rfeYfFo?swiIOZOoWDj9l0JfeRq8cMu3|Cnn)U$AF6QYv4F(zuc
zscEk_=ye)d4{AXM13MYm-4InXSpE!_k5R9vLLPyrn3)1#4;a(SxMoDsCmJ#Z>@SG=
zpbH|DXrK&-F41Q|E&E-l5sg#RZkSoni_tRsJ*c||e_SsdgfOv2>E;Yk!}}&MytHBN
zX!Pj&Z87(I?I~4pq#f0?Mcdx$40nX5pb!a0Ps9g)NAFFkt|R~jCC;R3U-`1^OGC<W
zC9S%WqW7+YI89U&VPnVQQ)#MFlG++=jky!{NNbv|33no?TWXA!SZDOx@lL_uK!DQ{
z>56ql`&Ma(Ks(ZO)hb;l&~-^m@^qSR40o=>NT#DN#R39dzN)Vh^i^qn^{W1$pg)*w
zN)D#=O{==2g6`<Ayq}ETA5H5{hflBT=(*x(am*SUcz<vB^h2|K?v3ah@umcMyEW0Y
z*mbY>PVWQq3+i)f#oQBq<sm|bKYR_aAXN~%2+&#;Z;GqtUrQ+G|7_J>hai+CIdG>i
zZEsw)Hw*UWUmgAA`2FK)`$>U18KpLqgsEslLl~`debK&nW!g}&YN!<qwP}MB=0}_7
z+N14p^8J(H&aZ4G3&-b=C&<LLkIYM!CHMWJ)V>#gtNw!ioK9W7vU>TtaQXU*?K=R=
zErkoE^QH0TcrZC|`^_bCsVQwa8a|gZRyzR8Gf7M0tWbI==@CksR!drilGdfE<)-`7
z>5`XMOHK(Tr+!=bMfvCD>5@Ky>WdoWvDzK0wrasvowx{7bKfaS+g=F2x=!0x>AeEI
zH%&Vd2Ue?^g{tOsRm;-YYHOd++LvxUpBjK|zXJNe4kBeEZ;9He8Lw~nMu5G7Dl}7)
zqH0)gV49uqpd%<JWCPJn`XmLa_^$3<{cbpk(*m9$Wn=&thTQ2!!PJTzY9e0%9wDdq
zbbv<4?OH?H_w>A$QKB#nugT&n6|VtYrRKF;aFsfIBmk6B8p)k+rY@?B!YvQB1-bKE
zQXq@%^1U-IYO=^oJz?S1`LGV7m2D|WM0648iJ{)6Leypun5S?Un*gMz2E3?5<KZ<h
zo;>J>(aF-bY1e1l$zAyKw{P;Rcj3?9zR9oHg+G7$CcknQ{`~Em{HnVdbVm}r8Y~&z
zA1v#cn4AtcZe>l_ri}^iAIMzGj6*svd5EyV3L36VNO!)Y*HITNc4i4*JlH$a;OO=T
z9KACygI&WW2N^dOp*c@3ltOBVhW7-;c>hwd+pAO*+zf_9Y9gEdoOm)En5`)a>dfHR
z5t$wz7H~e0j3EUqhpIm(e1#q?z*cLdU<kV(6_ui@uj_ILi-w7fB8Tn<M>s5*F{&NR
z?I7bm5j>O$mO!{C*Rr{|=7#n$Kg9L86OfUJ-vJR^8+`sVOgyAab99uBb;JVkexdkK
znyO#CdGC!oZ!9-0GY?J(CoZNNFA3D8HOdfqJ!*ceR+eh;t%kt}1{hAAX!LOqyvag^
zQ8d~q_=su<`UGaBO{m8eL%y*w7Y^n?Bnw9poizI<VhE!Tx*yrM&<BA52%b#`KwG59
zqoNlu$1nsRbC!b!s;qrKbxK;6(rp)mjRE~E{Ba$i3I7GA9_;SP=*bnjBBeT(+IuVw
zU%FzAwn}z(g|14edQ#OrY53Ar&)R;24Oz0cy27WyCep?j2^M|ez2hlWSG+zkmGGpT
zryf`zs8S_eX;oL`_`22@{@z1N(L(urIk?J}_|;^`y;ttM^6Re8`abPjv7C!)AVPqE
zN9@uHRr*w=G-$$|Pboreja3V(Vn8L4w%Az|Hh|cHF47cnBcOs@am)L3Y+&KF`Pbs^
zAANg`GNb5044_77yzRpiw@)N1)8+NRhuw5{nktFce0ccw;Ut+ZJNQkjtxs)wwPvG;
zFj&KVl6|8fqKUy626>+BZ4Jweju^IPC2&A?vt-z_&U28kAFm35r_7M(2!%8|+Y-39
z)j2jJk41rdJI@m$JS59ri8he+zQML;E)DP&E1`D^d}~UweE7LZg?+_59=U8~c`eYx
z)$xw99hTz<`&C5F`13vaA-j`reA(wqUWuRebYQJ?=;1_uYz2==F_O7)p{s1lZ^s!8
zx`@CwX4ZU*Eab=Kc@WFair%ReKfLL8q(D1q;0<sMQvLW+XK%o8u<yY-AO}w(`0_@h
zW4)+?W=Bvyd%Z|b1&iu(JPYtQ*aN6;3_hY7KazllF^{V7^-_a!*w^?W%56Sv=%+JA
z#Wl#jftoJEM<h9s42p`O$?cp8T4Ix2iQB;PSMbOEJAB}NF&D3zs|0gZ8il3T4EDMH
zXn*F)p!AV}s3zPY-w6W=a<TAU`JM9R*FJN7>RPe%<pS9~2a=V5K@SLfURXLKRJ5&@
zw+rR%>GBg1eXJ?g5_88|en*vH<oZ-Yz%^r-H^c`Lw?2OJqc>Ly+Ln(A1zixHrc9C9
z4=N+PKvjSrLK)}uQGKj+p?$s`LXjsEr_)qzQuoUyh-*_v!yW5-`>MW7(3hq474fML
zXKv5@WLD5atn^;@o$k9m;7^24!_^n=!8d^i9d$XO5CA^<Pay;ULPmy^JKIY*RwMwk
z+&BE(t0W_LaWfF7+C?78!~Y<B19|G4|Km{e%0-oYFs{QmLYj~^L_ruyCr^+Eu#1j1
z1T#RDQ3~k+`s#fogg|IeYfV3kPB*;ZO*3xxZODR3W3xsFyzsE(adTc*lT)2BmGFqi
zOt8pGVt*8yDyKoRb?6*Qii-92A`(juV&B>|h@Ocg_t*fhKHwm`CjD>-MA9W1GcPNW
z85OnQ7f+7`I1XWrtl5N&WH;^7u>36R^#rgw1Abut251-Ik3)7dOsre%;d5Vs;vm>C
z5GNtP-}<Y<Pxjp3vqGH=ckIwob7ZOG!NHZ9K0&oV+y%Dm)kNh}15wxjFCK-<+6NV1
z2GjOy;XVk}>xyEb4YkUw33qQ45C&VgA1fHFA6ikT0{`?ol`LBMM+8)|e~TJycrDpK
zhrDQ(=H4&{Z>H1m4kc1@j)iNS5GnU`z#o{NfETwj_}`mE<%lmJ>Hx@a0q?CzHiJ?w
zdnY(pk{<yN-WZWSi{4$OYEjoSk;&o>W6}A?OD59NV!MX@W6T{w0!`n=9k-ABndvd_
z3HFyzM8<_fXlg@AlH?x<!@m&5e<do`$%1gvyZheSw@wvCG{|x%*ySUs3l~$2H^p*7
zQDB20PAkqR;OD&Jf&xyNZa}e?CFYjTqy{dfyhAB2AQVjl)fq)6BEFy)z{D4Gh`*8K
zZ$!*3pZ+GpXx?pt8%C{B^Tz^0SF&a+i#eYb(h9{!38A3gEqkkML(xT&4I6gCR=7|<
zU%ye9DK<9U8@n@>E%uUq<UiN{z1&_TlNV$1BI02Ey^1>(f5gQnN<v|HQi^&hL(Px-
z6?@35WbDeq_4(@?1j;A5C;0dAiE`4KC|s><7Al)J2q-LHLH9V$rmlW__3E&2byzA*
z-TV(w6S70`So*=WcqcEy9sw)lM-+YqP>m?wKvd}G32J$K%t)Hz2R^L7UB5v<79N`n
x_YFAv;K~=*KZj94ZOSz${f@J%<Fmr}>=RV`q`r)_J#Ht=`_rcCw`i=B{|mvEbh7{e

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_769812.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_769812.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b9af62e01802802e09367714f38e26d660ba7491
GIT binary patch
literal 11689
zcmb7Kdu$s=df(-9xqOMDUe<GES+=OBCEK!N$!=s>vTQvP#g5PM<9HO8lBfqMElF8c
zmN~je8Zu5#RIfczxB#ZF2bii|SShZEg8mVwxFP`xv|7`x*sTu;?);DcQ|bUM4h7n8
zX8DprMac-7{buHynQxxI@B4=Ttk=^71cUK!#_v=U#2-*16^u#ZrA|f=%LGfX<P>pL
z`jS^koR&??uPR8wK~CUyQdOldD|09&bldY#ik0WiA62l5cNGtk6|Sl^1Y6819mGUl
zjy6=g<g0hdr*_HL?2=FKk}q>;Mh&d?UFB7p)#c_Hm9hGF6<4*aA$K`z+$BFRcmAk~
zH9>nin2(a(`egHS*WI-*^Dg`aFg}_sgz@RweQeRY<W+-=a2V37V!TCKN?)J_84~F;
z1Fv=WTQ8o!+9T>+zG*A#w2ir4wkeOjB5TRiK+EC(<$wZhBrlmNn}ChAGqB`?WVyd$
z4^CN{vvLnkd786|uktfl+#u1;z><8~gQR5sYM$ULc-4ZEAoxmNjlK&|foFIsO;_`p
z6phOK`?K0t?Q9+D?oUfolf_Bp;4B*>z3J>+N9>^@E$IQTKE;~Vsv(t^`SRtN@ueg=
zOWark$!qyqz6^~etA#yg2#@$6e~>SqggNsc;z^h<8nprQrA^HXl<U%THLp+6xOQDu
zZ@K2Hjz9EJnI5NwmqQPRWDmwvORyq&Y5E{<O3}E7`aOE6-_}Dz7I%)Thp%B(=<hw*
zsB9lhD{n!4v9gEiw2X~>Bj12>{f+zqz7flC;KRRD5WE6rB|jw_jKiF!8O+s`)pveo
z%~BNK#2=U_Or<j4@7^V;RZhuAX0LCq8E;C}@Hg{Hkg^a-36d9Oq~(j#bTwa+qVX77
z_83D8-@L~diZUZhQ7MTsW4NWVP`(pzS<noGGd8b%+`%?7cAL**n__%3GY;<efuDOh
zr_D7s<zQ@Hufyeax?N0NKf^i4#=T7=jw$y|#yjp{QWuv6w>8V0Wa`c|GJTEArAFqg
zlsTCzb1qlrw9T`f`I3cUY*U=W#@=G=ZkN~Qba`;MNm+4)2FB*P#mv}P*6A8!Mx0&`
zmc{M!&iK5!y1D7*COtDYy8{)1s30(Obg9YZ_BuR_&*NYj=*P)Aa95KK&gGb5IQPw)
zPLBgO&7n)~1-fltAj(3DO4fU8#sP!^i8O==+q~0b(TOtelt|BT?lI0bZFRDu%ErO8
zIz+{k+s2B@1qbK$i0V;Dd5^S-%4DIPb<T-$k8fI3dc1DV0nNBYY6P>jwp$L1%314-
zmlKtf(q|5TDAYNo^yx9;BrQz_rnR$H53DWgu#QZNS&8xNgf~0Ein__UbS2le)cCfP
zcUy`T4OpN|ciYqBJIcK~(k{`Q8Ahs+@m!hHxiVd%9)_KkdwP3ve0$QnJ;{n11k2;F
z^E@JjJ^<0v90Fqw-Rq)e#>rYo(9sboL?RYZi72nAagUCA99|EQDnweLWY!84`oKOC
z<u<!rB%PufmyWnZ6`rR#w49i260=Fmi88d(ezzhvQRT72j_`=8n;y(9_fF41Q!rH2
z++mOo9qS(w{`h)JdZJs#ZT3l<ciio2vW>yHZ}D*U7O!J^rUg<hPM7y6Na3CKO*PNl
zvO<;>_LA4_vfACSqmH+~a-y{jN<_WHWR*@2*9%f<;NQ~$2PQy#bAT|Jm-S2fh%KJS
z1kOJ*nil;be`GjrtP1o!(-{^ALxYj(xUM|Vv!x<TMZlsrF1{6dD?A&ikLzm#y^yWX
z4?Cj`LQ&Hiwca5d?iGr96NQ!0GNG{XYdKlelxR7&t`%CkQQ|E5H9_io$Ux6?X#HI1
zT)5}X5F}{bVqK^%d?DQVYwrHSy@jWATcG>7KL0P<mX9wTkDQ9t$IZw7UEdxg6Zz)w
z#8UIG+wQ+|@0Hl_8Xd3c5b`^M>V&Bza!N4O1yzZ>!iXh0C6u<UU3sh%jtvN<1Brc1
zv{TsE0z#A?PPCm^?-bh3p+p~&$aJ0zDxc@&FRPc-5oNUZX<kE6nJ||{HL)RqIk|r2
zOM`IgvcOzURMo{!3stW`P3B~xv-`12=)8myZ=z-jE|Wp(c~Qyo*wR>JJa+kM(b1sx
zIZScUQc*-1VSm*X8Cx;L3Wbv9wc)3x;~=W3IMN`PYJoDC!o8uXkbG+&VK}~3Nf^o^
zS2pT8go+M9-?8r8xNt)_eM8XS*!YQ4&^rUY&lIZn`)>CIFNZHKUtYTW(V4p!RxZQ~
z4?R`XeWN0@`o%+`L*avWS_0h(LrLU(OfQrlTc;kM5>C7>l)s)Ruf;hadqsQV#OcQs
z!igc2cnuB2_&OOl_dMCbkHYrl(WTLk-ne^h<yySR@^6azm#~Kjk(?FDNs*l6(3TQ4
z>Aefb4PW|pq&TMnQmC;K{UvO@_cia+?`xL{o|s6LXML~3(f&a50sVp2uMTR0bWl4g
zXUTUdKjlR&;J{N@bs<1qlYv5|0GKBx0OWTDHmzjuQl3_=cPUpqNUHO@lq=Ka<R1O!
zF3<FzyFAl>?($6k@;&;`U7qPbcX_7&+~t}66?^obyFAl>?($6k%01f8U7l$_clloJ
zr^gqfdG%-+uL@~d)km_QktA`8u&9UZ$?btR9@?H}_<xDamcNoO6CpAr3&}_27ePB2
zS|uzBQ8CzasY@i!h-9BgUh*ImV*-Hy*8_w|bxzr)M_AkGg=Xo-wj%w<ij*n`YfWo_
z&7D(jJ6Nfwfspw7p|(d0(f<U9h$+$)nO)Iv=OB%BBo67w96F6Jkc1Xl20<-yP;JI-
zplc#*08qm^iABftp(^K5bOA-^h;yhHZU9B78Ie3ID#k#C;f7Jx8z{O6kq5a<(zy5P
ztFKC9EB~$$aaW;EH>z9=^ZCaBv1K6g&CA70#kVg6x&pJo>frG2wAF#L&lINc0YOom
zpfthOpe<Ywz7;(PiA5?zg-v&~;o;>gOIIScpI?hs-><t@7i<0NhS=<*`PKP#^1<6b
zfKj)o4Qaz&cMK85UG0iC+Vx9AOz}v&s$J`PU|3gtru|g=xa%Jb3Cgrdl?YTx#1yB>
zB5!S0Gzk?=F<ZRi@S0__?TpZN=5cGhttUYl7WE;0*cJ!YgLj)&nqp+Uv_97RXmE9K
zy*l35xjy>Y^rzEbcEwK*;lXVgX{Bl_k0_{26cvACh6G+vk(}SQ<<Qci)p+?O#Ng#3
z{UqE}kg+p_$sZGbnO_d2h<`_5;TBDqCjQ;-Ww^Qh3TT0Z8<$*wo)^GtCQ*JRujCrN
zXglLDf#li|CUUq4CeWtc5qR*h@yb!zHhFT(Os08MylNutK*%)6%2-9l_@2n&PVlRt
zrYTb+MSYK&6i<Om1?GTNEx<VZ8eTJjj{lCpsvlA*lmH&JmH>wf;-|qmgDG%0Kpnr9
z*XA-TA0*q$*|wZjJ=COU0kx2Grc(V+6z>oYl3A-(^6k=8O~2Ng#@C6`Z}R~L%aIw)
z(hIOpvf3=q!Ane3emnP}_CZp1zs_5oDrf1G1mNTWwc4-eb-b3>vpSZ3PmZ+!Ju5k6
zp!P&fs$S;%-Lj-wUnqdKbsx4V2pREHLoV0e7{SYaMY6Ib@^4i?BmCf3<mvChM+2Yk
zd+_OCTn3)TU}3QBhkKAlx9G6X24?>PH~<)IcQW7x@VGhVC-Xl6``GJd&JSHW%G`8%
z#~BZR0`R$52HCSsGj1qv1e4r8iA-|Le4=U2Hsy18n&8H7f}A65&A69099|y>u7%l~
z4&+*};-W^W#YSdf#)|t+x)-u}z<Boo^NEyL7))5^T61%ABQw;}Qg@=I<*4Nb({wtM
z*LH((k0N=FwBgRN+$WRe$lx2}+`bvl4P3Y|1Cy{@;fnw)^Nat3fPwCkMJCF@LKM}L
z4#x}-FVG{v*vStM|NdvUdQO8sKtAns0sf6ZHqf^D7wAq}m2v1Js#wRI)9x60fvz!2
zK6e>qD(0Myo1zlTe=ss-E|*A;`doJ8h_OwHa)4&3F_kp0oE_Cs+5wkmz>VPcxmZzw
zoD!lEPZNg(5|w!D+$hi-x_UU|60;b&Yp9UMqX*<)aEKJ1PAkWX<d6ijQ;0<+O^~RZ
zx59Yv$2Je%566_(CQ_-@66N#OSy2O#w44a(ougj(pnc*&lAsNi6(pqA&nCAVs&<t7
zDexh|JpT$?5|BBM$S(|BNSF(dX?A-ca3wg4a8(sj1-WqR9etoHq17!O4;{aK7D4w{
z+CtDsuC7!H+Pc^Ufo>0U|A(4>rZX+}h59yiRf4W+Q&%JCYNA~+GIk_7AJ-iQGf!_=
zyd1h5J`<ti`Wng3G%sEVU5K<ry}=7{UE`+ih@d+X=t=1EbLWFy`ex`xWKPf>L|mrD
z{!oA9Y_LDBtA=!5VQ?;@480TR0~1!K5Bfr{L@0q~z+9sBi<Xe(PQxZ$CeUS3GRkex
zWpTPb&<(6w1GZG#?lelpANAbrU+It2bzraN6)tO+w2|ScY30r6?8?Azl%Hrn1~uV}
zzR&xf<_&`NY$^)R{-OkIOUe|sM`|N=QB$ODX*#A{BUd#-QQKx=yHMEv8{a2yfBbg5
zuv?(ILz*o)kzb1J?BZY#8tI0vHbOxZ-Ty>a3nMX>2j`L5zF};Lj6)QYJux-}`Vx7S
zVa>8($*_^v6r~`F?SGQj6gZ#I7K9yOT54-I6t$8{L4g+wE(r(Ay@Pg_Y+=SO2O<^H
z?;rmHxw{!{SiO+@6}zYxB%ks0f0ufpgccO63;~H>#mW&l1H>Z5gUW)R9Lfb4fT~eh
z)>WTF*#Ox9tak=@gGi3nugSbY@M*>WED<JeFdzYfYZ?L0HYm&?3n)_x428-aP?$sg
z*i$B5My8B03sBe&a_D(5MgR(>cO4kT0vyp?%1qY0<dES3)IuTM5@`DXMtYWFW$(#5
zq2$98;QQC*QZ0B2Uc6v^Q1I(`G8YfLNKq*so`#nv;K%c5;AKCE-v~0~P}Q<Vm*dSL
zH9CJDpT`?>DOi~|JFL(e_TWK#)5M!{O0G%u#!|eh6x2JOM)MaYKdeED1t^F)-UdLi
zkb`0YXGGfhtQ;xVEInBV&>&-Jm(rV7%#fm(R6s!8{8o+Q2vMLHv>ZDEi}x;?_lpFp
zmA)3;!U{&&vyP_JtuHAQ=t5vXyXbwLsT&1#W6r@jN1b*X0=}dgki0a~;0$OF$ew|9
z4(k*ihI7E90T`A(yBB==N%h5Jn|3f5-58sPnYH>{(iJ2rIans{#~>@mqUZ*S94JD^
zjkBR>3?gvxOI&CNHe2)(WUIk1i)~sb<cdo0ntE@EO02<TVeTwy1OYFH9?3+F&*ho*
zIUJxmjiXEiw4eh75RI-y?ly|hLzO5SdR+ozAIkEeXb$De!S5x?k!x9lX92s973e91
z^P_SN240-20+7ax5|Ud-XGGcPj0bJsEIdw<5-e+_DUv`r42<u=zvl^@T>xbrQCP7&
zv@~>k5b&5w7>hTJRf4f9DvO?p8xH{*=n58xLPNKE0Ft=`MF)pNDgbIz0U){F5Uvkd
z1HI2_<6=Xo0erjF;n83B-0#2FzfOH-{M7iA?hAB-Q!%eFJiIs`lqU+xBNvwjgPLc?
zg2lH(Z%0}q+)8_Nc%|c^<I&{m<m0+8T0U=iYJ4N8cve^%Y5m2OU{9j*Q0&OsvGvxE
zUlAHk36-ZeE6xZNXMTI^i;mAb;uWuLTzYHc`VHaI4WZ)4!L#AQa7ly=mwYe;=vP$v
zmC?M&hxkY@9!*g3Rl&aH!KK0I{^)4DpebfwySzFr6m$kP32?TSE|o^kL{)Lqp_n{2
zx2hLR?ciQ5C|N$YbPmvZaAh!FP!Ftz;>f|x(s}``@V0nqvtVdO7JHA-*7JBI-gaKl
zpAX6s=ECKZOD7|axcNZzji_zITo;rFyYEn2#YA4oRw<!12WyZ*utA>-_dygHiS3Wg
zt{z<LUaeejePZdn*Y(>Pp|bZ0eGW7WtpOHf_?{|Ov+~ZG=}A>v(6e|ebSq*C@q)Hv
zL(#G3k-icx>$hp+B8{|qE7s~owP$9^>9tPU;WA2xG*JI990v^4$%{SB0Yu80WJz?r
zcw`rdKSdsc<Q1OHc^&fnN`PTm5{A*GB+sfv=BmYFn~cQ(=tmZ^YR?)<3<jD#0bT=g
zet%e3JwR$a1V5eCGICDs2&ox4Mv&mmm`MF@D2t0#r>^zApdZGIe@u}DN$7Uj5q1H6
zRaz0zdDDIbHtnGV(1%<M`c(2K2msWq27x|?YnoLg;kppRb&ioB`BG4v3+7UD0Z^{v
z<+;2CY}%uW!BVyd4+2XaC{DTww8%R`?)6N~^#ZIPPqXk>24IN(Qj)_u(HDstqLuKF
zH)SO87Ob3<H!pvSxJg>H3+os{`oNfNnsUs+%kfRlhMv?Vb9X*<$->j~U?bDN&9Fu0
zW?g?v%Ly=GEzF1mz4|$r6ZOa%0(i?pILY9KwxB}BZbj8_@7Q!jJ>@QzUP+{45F%L#
z`)MV>LuXRLKa6@9|1c&Z=))j51dwM%iOVQLaL2uiB6LbH)QM`B8_a32QZcAu%)=HZ
z0uS!bP=swy1GYW6C6s~D?k^DabBIK8P*n9>-SCqG40R&e&tcpfK!sH5iV~?5f@7@n
zAT<*WJrg7p+n0QiWF0Ae0|T1X)5iT0s>I;mW0f$i6zsCaW1(Yrj)!d@bZ#h$gPn;y
z6MCb&eI8(JPC_rODSScDRz|CzXlphUH5=L*u$44Ln^c(q4%se&s*IWhYCpD0!>SM9
zmMsc)B&fnHhCtUdeg5LL&^6>bj}G7e(Y+t74S#aw<10_~rvts;&;$TuMX2J>s}g2r
z(_AZ<YojA^vn5D9GnXuPEOkU?qpd5xhdqz_SNk86Ur?V@PtE6{G>v^V4Qu3D&&L{}
z=H$9v*xwcG3%?n@66p$Gd7`V75YAk-d}`@b)D-QCn-6Z98wGP?+}s?b5Y{eiRvi(l
zj;wXXtJ;Nv_VwD&T0U+0vO0cpKrjy=mcj@nIjQfTyLT>L(kK)(234Wipyt1g1icR|
zc3pm8@V`wN`i~yuEB(jPZhcRy{GVEtJss-YCf_%}hP}%2tRKbXzzR6wB>Zkrmi0rP
z<n0R$q{Bmb`i4{N(H^|({h;=gUW9%)fGH@?{ICqYCi+!=wVwj>4(`h&j{+H%a2v`W
zBoWk4vr3+JlE@1S&o!zcd<I2@-N)L%V>Al&@Ua4o6KQ;+7JjATwc2eShqcwB#Agrx
zZiICue@D{Vj$J2sTf>9OFHi#!6s5IBk+g~A2=)e9M@03A72hYKZp4~}^rThPCm;8v
z3qwTet#8Wf+5XT12TeL*1(INH4)kv9$UBM-*DCb<6#hN8APNv)A<geOrN^%v!=P&Q
zM%#Z=_({db6;G)@33Po&$wAnMkL#Zv9268afu7*;@IbWs8&E%+W45)zb@k)&FBjqk
zR|A8fl4^>={w<}#s0y4zd(a#h!g`H`eDNv>0TYR?HH-WO1D_WJ;3W4DW#mbdsgg!5
z8l`XZ6#QVv2S0`osT9R&fnAhOIN`@0*u-$m&v0BX%2Zv#UQ$sGmo|P}lGXyL&3HlZ
ze27|UCaq)cDVBQ;m7POT4{CwxoOZLmDaUE<?;(j4DNifJTXK>l|3K*elhFT;DBq$9
z8TEeY?b0n-JJ|q_R#nw^r&gx6j8dxe^k<!)cK#Piy_6F&oy7GHNgQqeT5l#*(VqJQ
z_Xf5IAQJ~Hn3e<mRgzW$4VPJ6(|!IPzokYgifC$kG_X3br9mm0sBd{xzFNMeMJXN8
z-1-tVyLI>wc`*Fu^7W<bF9{&GE|HaFXQcLS<4WTe0c6bgh+pL~`MB_l^3Tg(qTH<^
zl4x%ET2n*jM+@(l-z(oDfJ{J#*H^D^$$|c=w*LP0d)K#=K!acnhaWYrHg2g=iX!S7
ZUZScmuaKpr`Rh)?SQ9rKxUI!g`u`dv^hW>y

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_790411.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_790411.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..27c3f16a61352b5805ea4a0a09a88f1db5cf2bb8
GIT binary patch
literal 12519
zcmd^FTWlNGnVumz<d8EI#fvCel6A3c*|cQIvZcruMV4&YN^DuSVkb^)Cj`ZzB<ijq
zWn0X!Wx82}OoEC`TbRx+P_`&GbYmdOB8w_OfOxwP8+2bdrce=6FCd_K(HmVG*xkPD
z{^yK_q!lWP)9$|P06cTf`7h@>|Nou;@ZXF^0|C#d@7H60t|N#)qJr{RHZqU1YJ#{;
za0EwA5?AFnd6mRv)s*_GhLr25tCWiHkmIbPApgeoCHb<F<5ZlQ({L20<#c~faWqHY
z(|-)Dp=V1O17~<<8P)fYL9IM%-&8Q7XO}4)55rO4VGd9`s@%M>-&qFrjd_N-R@#we
zo@!@QKT2@MUy@wOD0$DMtQxF;sl0xLDOc*zj4S)8fWVozsJCoUZ{4EaR=j@1z?HqN
z`FNv6<$cwlC-eljo3nd}aeF~`HnLnf)K?U#uh@cr#}@pR9wS#(TxNvjs^6xrmOwxD
za65sgrbv4rKceAkfUgwu)o#&FUGX-!`Yrg8UYgqldd*xT*YGxZ)dF9eB{x6T1=6v1
z9d&4My$8~Df`p_F<!F>ZiEvO7dvf5ysdLUtFJ3+EJpWW_@Tt-{iS2*s!pj#GPTi%8
z120~7o?F)-Ju1mCJwN62`CX$PpQK0mn=XFVw;n=GsZfF}f<rBl=OuDbBF{;b+d1p!
zp+@JPnI7?u`Xu#)XF)RZ9-qhW^v^g09)5;LUFG#CK{k$OP=aieyKrd{6H@>9S6XD`
z{Ag(S8AmN|dN}f)>f;TLV8u4P>H^*!1-xj`n;wA@tRHW*7p&ZdS1Z_Zyj6l-s0vU7
z5v&#}gz5n32<{Yi3U*vq<JTz-36(-k0H#5(=VWVz8jz_Cz_<gz7OcY>pagYDPrXnl
zSdpHB{-D{~^l)Up??{h8A&tRZLcL)7PSUy2U}-IuZV+||W#37<Oc@Uz!)}2Pc7bCe
z{#L~iBdQ&!KQz*Vb?-(LMBAX~6-scAKnj?em*X^O76gOBBQ$K1W)w=Wv0#R<JAHbJ
z1gl^hQTcO~#T?{4N*PCRuivDwa%6$#V*5rXlnLdiABwc{?jxe)>nC9y_6hssnUwj0
z4#6Sp#&fk_*uQB+x(T%IO$BWhG3CM@p^4Mp(<uf&*evVWJafSVn`i768Egr*Zsr!`
zRu68|YNK!vzP@~`ZQsyi!Mpa*HhR>;A)!QBIiW=`<?;ug8r5N;Mcx6y_H8t3Kx1i6
zOS@ps<)7|x$L1b`e)v*2yg!4_;r8<7PN7YBE&$ex(+9xf1dj+ELT5qwsBlC$iofW?
zsJ-AZVQ)b{i?~{$SvWRcrtGZzTWBuk0u?K#?5BVc+Sm(gzp>v0`P)IYdxS=%_Ni|M
z(Hf)V`=>R8us3-8`&pA<*Y~p{!RG~)&?SHEIZMFiR_6IlJKv~Kg5BScqR>|%Y?jcX
zTD&qRgmO+ju@9U}p_MQ6F&mRDbPLCY6ZZ_tmqQW@g|@Xaza~nqn1q8F<e_Q8K}s6e
zEw7J9HlBx#L);}Lit{hbdPWs_@U5CDmv2I%X8dCwo`)qN){%8_kUYX0juJ`bpOg%<
z{LCotnsRzMN#o|cHzf6xcUscAc-Qo(N1~87^+~#s$r+db@F9tkt2I#MBsDkV2PHH7
zPS7V&KFE0_gUdfN<#jt<9OvkfC>Qe95;croJi=R&cG!pObi;vJTx*3|-i8viMJ2t@
z&wDwK(>0aPPUNz~1=;Cbtvk=_o|X(78irx?`TVrRDD{EaiNXR%jPf({vreBEhPxGX
zkkqp<M-(K^fDBbo78*vV1!bqDQYGu1c4CbZEh`2=X2i?;{Fre{V)N~R2CQ@AH7)68
zMn-&S^m1kx76aEzz@nh}^1%$sZ^q?z&ri)y!i@702`fF}1Wxptp1CQpE~g(>%jd+q
zfOJU)5OcXFV5M(Kx?$%u&d9o9Ziby`O=V`(0B}mwDCSWOLz}QzNRY;>hKQiTH|8Dj
zOL|l#XF<?A?QfU4a1OZe-jPW6#(-e0<dMNjX)&1d;SK5Qfz_}33!gt<Y`r<dPxzqw
zp4KtwrprGzGkpNy<+Q)m$Gcnoo~hYZD7B*A!D#(3e=V~MPN;(E^7?0{o$eXfeVs=S
zwzstbMKa1v&Iu1c?V02~&`Y#Me7^(e7$TnZkOX5~JP<h$A6hZghE6?XOBT;Z&d29g
z*!s}vhozR=x|l9b#=Fv``$8{nE@#Rc5?-;qHKnm-OqP_rQ8YD%UdUJ~<JU!tBXsVe
z)gE0)92d)5me{oQ`OrXyEsq~gREt#yM7AY#I%6zNSsO%SLy{HQb|{-{Q9(2{{A&0k
z?=QSd<Wg6<u}3uZ-0u}jPKWxpBO5KzNl^B*w6Q02W(_D;J{(GD;#b77JxRS-)+QR;
zmd-4<|JJ<R`RRrGUa|dxXuJ?QlL5{fAG#8@_-O2h$$GK8DY+opkBG*j%l-HJepi3L
zU+fzAYC-IJRW!aDI`g%~c6(oJUwk0hoT}>lg8wq`d0@qI7Df(w+I~8Gdo(s0cO|Nq
zbYgvH+J0o!cr;9AO3l#$v9vDHDVFXJQ<>7TxHeW2rq;@<<ClNg7QYhvL6Q{99bp!&
zMt`I~dImIHT46zU&0h6kZ`>d6k4*!Q-4Qlqs&*yXe{BY3RZS_nDXfb&X7WslInll^
z%sez(Z<oi)<MzbFvU$aPJgi+a+dr6#?~dM#)g+FI<^y5sq0zK>C2}RhTB0w<uZm@R
zMRsp;@6uUuf49hXXUx@!Q%@*$i6N}Y8VGA;d??l&);_eB-R_KaW>{;~6Q6(%iL4`e
zX6c&P+#|9*NT?TtY=$rmLbe?rn&W-(@>qAGSG4X)nnlb0ur5<p9iNL`gDTseus&m{
zi1&+@hJ;Tv?+<G;w(5jlv^kQOMC-vYow4qSzaUz7Csnd2ZT%^K`$p^r%yIcgmA|M=
z_I}cTw?AFqo-XeY>5ee7MwdjJ6Xl|1U-GDEX&32s&<S;2iM^uLksK1OElUp3a$Ka3
zzpKsml0?a|Y#&MJZK2*wi50d}$*y0$^wDd-cr7`%)STXPLM%A}`*3SY@r~BM-1po1
z<$kff@BV_=eo-`Dgq_A(Kj@A6qx~Wa;}_Yw#Fgabe{4%$5%+W~lj5GEB6BR%m(i6(
z>whFXqz#L7gpS(d=7jC{bmP}hHb#um5g0i4d%Ec{eA0wOf@Pe$>G6(^`6aE-?V5yB
zsdf(gK)wqxXnBu+o}YFjpQ}8`tKnlL0-^8F@91w60x_ODOe$;u)Hkv|-C2mIDWxBg
z0=X@>s(_m)c09cfZNEzgwSuY`l~beR(7Sqp3bptFGRn_*;V3rhB6LJQqJsVxIqpGi
zkt5DMjRI<dRG1EfG)KKn2X%ggIPfFr@L`OAgBAtQOpV$Qw4g0_*ikqE@@f_MxdmOF
zqm$dn7pLdtscqzo)ARDGZRCs7^YZF#<crhu@|uqka)O71gZCxEp&Ja?Zq-fA`}}po
zo;rw*_`Rd^GxNSc<;IpSLc<91u1eB!o*Q1b2O~Lm;nqc41U2&*one2b+Ac~GAqCjl
zXt|ZsL&3=eLDx-B1hyK7&*}<4LgP?}H|&TChNT%SfMh6!1ISh@yK24x71fgF{OQZR
zd=5wY(AQWO3h^AgCAw?UH8sq+x&uuco}BZ{&AVWB0v?Q3oW4UXU6V8LwfnjuBQxIu
zQC}w{{~014(j|*bgo%Q&i4TH9OViEwZhZ3Q-8Yxpmbv@gV)skw)=MINDMPd2*CM7z
zlzNAj9|2hztkaUw>jPAwtOp?FG1n|$Yk+O;F^K|1;$PsW5kCUb7-4|*!6?{a;1Qzd
z$57%$$v8@6TQoE8pPl#1s97@#pt)cQ(1)sEsh%ErCU$H&ejY^yP(wZ&EdGCmh-@jr
z8W&GQPOLE1DNTE-racWQQ=MTft4y89)U7bPQktIB?w&NH%&s+tUF?i>zSS4%4b6dj
zSY#t?bSPp9^{(lRp&vXn+izFJs=(Ho<F9~=dExF0%e`Orf8M`h?h9+5Xw<AW)c1rY
zC`)v=s436T`fz9T401EzYxLo^unS(;ew*K8qC>Y|jlCLo{p4DPHZ7J!N}_XVdPltT
z=iPU@llAGUX4F2i?XEOk5pVqYfjbA1WV&+yvsPQ4SPhgmYbRJs=saFeiM;79+{EbP
zz?T0A<hHZ=LF5$*r9l`y$Z`i&K{Z%L5(foHbfCmO;%Td&v)i&9O0f*cgJo6ctT1W^
z9Sk=;=(Z&vYLY+FpaytRm~_)ql$QeQtwCW2P8)!LYEbKkRDOzuwFC`A2$)l`*hTFf
z$?23&f84C-%fJ0Ok5lXpLD3A}=G*&1$UXl*>klo^<HgrYt&BEE3%V_MNF095a~6&c
z9h5gc$frUm3HAYm8uRm2<aPsAyGU>%f9Dj``>Pb?5Znc=%C71oUjGQz+#t|$U`2qN
zIAk>Ba4N?H;5#Uwu>~|Eq6J__7SKxy=%ym{(gM1<2;EXZw-%w>3g~nZy1IZ~T7*vK
z>8R)1?93uFo!gm=zzF)>oNcTUvfuCD)er@{w)nbk?1aD4>ayFet}fTpZ?0~hR(y5y
z^x~_Vrx#z{JiYkp=IO;(H%~9Vx_SCvZ*`4=QDAd(wrO<*K)K_{rEhu^EHAJlY5+K8
za!@Z&e=Y~mAP(pCd50%Gb;ApF`B)J~YnK84s5vi0Q6@Z|S;&ma>RWpFI>_O0phG1?
z2?Q$EVgC~A)hI#!Y8@GXb!3~?am)?J1yQV@M}gyY1h9ByhaDz~!jT&uAwNlT!|S=p
z??zeml<O8hk8%`5&88tH<_6F-%QxYwc?hf=;Tv%tvWE}J$Oc>*C>e82jyOvAH=%$r
z48|@v_9tm>qPQcZu3G?*(9uiMpo5pB!Eq!l3P^b%=IEZ8l+-s|lM;idI8FuCngCS!
z(7y~6&?CQP;A4CW@9}ql?Opi!{ss&aU>%y!8y0mD-FtdCvpxl67&aV;bjODtFf}R7
zsZ`ymG^9)o0wdapHar(S8~I_vknBy<Er4`Dv?J0Hg(yk5BhBndxI|_j96-0IHkzY-
zk!$fjIJiQbh$&q>9yuP@MCar4u^>pVGEE}Wl<ZCNY39%>(;+e)pLu>W@##dGIT`Bv
zdV`;g_uZirry<snX7;Z#2Sw)Kl6mQ5n(16+j=}l&i;gdke||j8^oRP^7}Mg>$kFIf
zoP6&D>XuU6A9E&LY1GxPjh4l0(5L$NP@?|MEAgs(r$0G&_uPH*U+I6QSBx))&OC(p
z5-5nb{rCrA^%`6HfjN3AULWg^R>C1Xp%U3$nPQcX)TFVYDElKyWo*c538VR&svhao
zK%<M(^ctWUzCj~Jw*C=A8Fyvb;xwZcXeFCzk4!q_&i^QdP+nx$`!AzOc&{~UCG>38
zM%3;KYu}xVHpI=bec?AB&{f%TqO|5oC1I_&-4ttz&n3>@`5}bbhCbD%YC6A||MJbx
z-%MS)yn5-Hc<I`T<vPT&{-4d75oT>S1kE5k<BPjux1#4B&~<p$vXy|QqaC-8#g6@?
zD^ZnVnp2u)`K<I)WE5g3`2Z5P1`_2#)(Ye7c1SVKRwxB;jH5L{K&c#wuf?>2Mo{C6
zK^;U`ko=}c&~Yk3t00_WSd3Ex2FfApVyGJ0(B=>w3DK9W+M)j9cJkN6v_FU0i$!Dv
z!k>%Y6hr0^vDr9>6h-6|r@EILlkD3#K=R7fIbg&bPKU8?1PcHk?!oxb0JD!yGz=g_
z`8=b;tHI{bAG2`<&*Cdh8eOF25z>eXW23!rai|Zf{#VCIZZl5f_Z;WO9}R?J<1{K*
zp<tZG@r^i6;r7g71l6}u@g*?%tsL;}0LIV{VqAa$#QJ~3!y`Z-J9?52qC5fu7(qbH
z0l9oW42h)m+?sWPkJrKfYf#iecKik$vv5v&;Zo#%#AfC_vmTcp#Zx@|q{nr`!y}K+
zzXJ(4{HMR|yz7@#gEwXOuR1p>(b%IygOUN~h8O%EAOAC?UybgbAZ~*0o9Ovz84PUc
z?-`i`M|b#-K>iE(`ThYm8hCr~3)aPf$iQ2tAy&a>XhV1?q6NpVH-yI{wV{(4*1UK&
zayH7x+v2V?Ter&MIKC=*c3G8XkFT<)ME2DE-urWD_C<8zVqIK_EW|C~GF53)!>Vb&
zXxg7Vlng8%N}IY@O=m>Ynfr5J?Mj=@hhBg<$f~(sG}k8@Kcjxbe9EktyH?GEqIvME
zxzsCHQs%+5`PB!nT}@qoBlY?lD1Ge>(d-PJ#UA9xx5Da7i5cQ5V~{c1qH}N|(Hk?u
z4M^?YUz5qhNv&Ahy3`@o9$7vm)|?0%K4^=&qt88{E3-PHv;tfyYY+8-u2oa5XsS(U
z?|D9%xI3|8I<{&W5KRML4W%x>oH7lhO|Lw-@@nep_0+ZND7|uBG`$YJM{ev}I<d3i
zm%RyJ;>?{llJnxu_GPtLeLPGfzaF(epevL<7|Rw1BZFxO+WUVVxD)t0L1def^C+J7
zaZqHsQkpL85Zr~96k%9Ye*6Ry_&+KcRDXM55&jHBLL|EIuQ!Dr1+<{&Ue2}$HQVR|
z+x|@YsDeLWQGz;ebFV``g4&=iNP{KK*>U7Y1f4)b90z$jc!CCw5)57vEGYwDuy&9~
zC><{8=Q$TY1zEVrN48R8;4ASv-7cTU+2)`WWDXxK+$CcK-}W4ayg10`VC5hox@wm%
z-H{G{2q_|mB?>-Z=P<t8#Sokw#{Z{t&dvZqBAt?P<C0X4Jz}#kKk4`R(7B-yddtAu
zCU<Ry=RIz09NHn+%6|sDe}JEF0g@20X10aSeoY&3j1|BoT-H7JS=n!Pe!6poJ`w8u
z7E0scrQZAdR~pZYnugG62pJ9}>YuPgSxeHjRJN?UU;R}eZMzye58u4r9t~zGjY%8o
zN3l(7Xb^8QI4Gf69fY|=Z-<&kv%gM2f&V8|VZ-yu&q7`@$zyMsguh12!<Di`D>=R%
z(c%9V{xOMm&HHEk^V1$ldkX(UQBse4;g%c%z&<}1H<$~=%$z}gskrQ!_QB=7{>5n}
ztA>fjD<x@VqP%v<is6Zq7_h`J<<8NWN$xHoV<!%2q`RhOxcNy>H~%kCM1I-#XYj;X
zHA#|xB-lR?#(yWO|3EN+wpHek{hivkYS-wpuolHi6a4b2)Ww%loF~QmM7uvr5GPfq
zRPY*9T~NVCr@yGm<d}WW!u*VyPk#4q@XOD{{0swpM$OOEjcu8;R)bOdCp)39$XF|*
zjwe+mDpj_IP|@#HzEzo34Ul9r;A^-xZjLo)%W%=I6w7h3LMiURML4O*%vHEpO_Y=_
zUXNV=(@s=;tR__K<66{49VU;di1JD}9X>MFk(P{(UDZ{Hx{9nCO7Jg$MQ6mBr67;a
zY?f7ar^xQi>QEWZX_mzckqcQpDj5i~Ez6)>387_HDZ5D7ADdA5ED8D_QLW?wQ2vha
zmXK9Ley!B{7}aGbF<EaXpGS@u=~F{~jVWDaszs(cOF;?RhVyT0q&2HUB^ug#j3gd+
USCZC8U4*G2U9$Tv27ep>10=}Na{vGU

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_811684.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_811684.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3400ec71c5d1826df3d7a61d26acc9a365201dd4
GIT binary patch
literal 13580
zcmdTqYiv_jn)mwsPHZQ3UL*waB!Q3+2+$PB8yb=}<ylC_HNH;B%MRBLkMvsWju_RR
zR*Tbl;B+eCOh>|$XfdNob-N>#&dzG6R;%%;(ZqX~m7*P_75~!Gkyi6(_dDm>j$<4`
zrz5TQBtG}NzVDp#opZj|Isc;7swfCw`#w5<rHZ2dgfpq2OD3L}#1wU%Vkm~5q|OLm
z`V39-qABqi2~FAQae^lWDtwvEjOZ$TJ6U)}woWUtT{52PD+2)|$z47oVWd|jX{-tn
z?%j|9m`sxLf~U(F8T`o^1*7~x!l)R<qWU(>4~OT1&^#A}Hlq&>qj|1AwCPbjAB2`!
z2Vzt@N-?@$(u;YwMZ(P1p?rRB3N!k3$_?w38`mi>Sf{)&cln5hF|Dp_dWF@D`6_ir
z!&EXwc51vtm{DfT6x(&MD@v|P&*VX?(sf#uty8{fopOv-!IT5md}a$%ag{!!haI9%
zkIQg{uHX6?4`k4m+(BeiIE{Z#f)HJ&IEtfZX^I+$Uv_XO*9U4P*>x0kI|<<t0}c_!
z!O*kH?}bUii8;xL=onQm8hnhqtQYelw-bJoykyMb-diu_C6~u`weZp@t7~GX@M-47
zm&bPEsM#e2pv^e^<&~yOPIkgIZME5(&RcC0R`+?QW4m?K?r=A`SX-0ZJ~iD0xhBBd
zYMHXSr)DO1Okc4;k;To9xt$J+&B@p;dz+j0>}`b_-fUs)7iO#u_t>o6LZD_GfPR9-
z>_HAc*CB|!)UrA+Q0;GDQk5cA=?9%R`sVxMsw!_+LX#iZ?LQhELhAA*)fS}M@~f7c
zZ3}I2RRdJ2bpf$&ulMCAfP>=Yokw5p>bDG}5`(r(4u)q*)=&lUb;_MyyYcjjVJt#m
z==4gdHfSkIw^VZ~PB9DpWI*KD0}Rb6Qm1$py7Oo_HK%+oIOQ5REvEsFP5ns3P$QyZ
zz{E*07Ea5EXJJmb4%Z5Gq$k}|5V8#*@}7c_Zvc_cX*lr&^zYGgT24Yz22P(fQbX40
zU^P6(47$mZ3z6}G6Qjek;EW8tC`oa6Pr(LIG?$lzl4d{^ZU80X@{>@q3@8(!EsTvJ
zRPdNNGo)Zlo+3A#Vj*w^sU0zlsZi`G;flxAsoK@AJDnWYq?74H3I}JJg<Z@QVyb&e
zxstyTrZTRSD<fP(G05Tr@ED(m#|nsUiFgU-6ui{wK5u9LOBmA1!DND>Si)uGEM6mC
zHO)FlS?iQ#jNxTg*6J9w^O8xYl_4jb#ix#!k3fNYS4;gSUOeq)d6mm%owU0wIIWzu
zvrZvN5AgILuW$h;0UmN8opPm9vur-#WAzxRbb5@jObH(cFJh<Q=irqWEY6V;m)-5+
zb;({*d9Bb>Dl5Zt1O&p@!J05q8RkuPhNoRTJ<BVTZ7n-jlg+#c_@-zKz8B$pvDvi=
z015kCFJiSA_0ybi!p=JElk8ro#oW;K6IcQ-^{tB1=3N``4+JaYnlf+CLyayYmr&{g
zW`D&8EjRYf?+Xou<?+&;NV(J7xqgM-_+CfA9q5}Y4PHk2+Hgxmf2%Fh{aIzC4{d8l
z`gZS;gsJF#eXu)do|_0AMyAGyC}O=Uj~0A(A!<fV9mv$-9ZVFO-=~AELHXR-&|Xy7
z5N0Dow=P8`pIM`FwBryeJmei%*5(B&{U^P>iF87(f3GrdJW%UD7(5y3{-`q4H*Z1e
zMsN2cnB^(|slc(|zBx;{HFDvBcAvNRp+a>{?w1Et!5^UfhDcS^_CV3;?MM|Xg99kP
zJ|c;BJy0C-b}Z|S0qdM8*gU6!N#qv?JLa_BBM-Gzp_6fK<6FJnPM;{D(p;<dSN~LW
zT{WkQt4f1bq^bxtBV`p3?HP5;YORm;?ePw<d9XN-y*Szo5sMYjdI_%)q|LD-XL>;7
zWab9f<obC{->Wa5c*P>Le2isKy@*#iW~MAIH^^2Ouf*v~R(9G&j@IKtxQUppgb%v~
zBA)IC2)WJa7#SON@!|>l74`*O*^Z+ZadZGTlOKEK=#k@=eqPpdvS-lJZ^L^!74Xp}
z@-G0K>O06kQwFERj3O&AtMbphK}&IprvbOb+=hf)S`sJa@>7z|Q@lZ28K+OTEdkje
zny3SMNEzBw3coUkiZgLWEDwQumO={i(K0tyJxJh+xiZ3GjcF{KxH5p*Gz<KV@OBed
z09d;LYuN^4kpu5f(#TWJ6>;UHw+e@ZlY7cxG!=k1AD3m|!RwM0Kto8+pNwELXXf<J
z1(&7;fve;yHtfle8Zm*`0#bH!maHZ^4X)+3td-h=)<WR6a<ovps*NxbOm$9$$4#Is
zv!K<f8c!AIumty0(7IF`E*m;8RpY7VB;NzNCWAtm`eJfTxO`4OB6_y0UX-S2=&5yM
zZb1U9VmW6>=_%b*fPVd7Vei#(g)Svm#~BDs$|p)Fs9}GeF$yf>vI4jDDcYBFb$H)S
z0FAL_x~RCF)HOZz8{n$WrWTBI6_;{Rl^U~W+Xk3wo{348fvI5wOjXasL}y@X%x($$
z3~OX$H+i;mjf{raX2vWMLN;R+F%!=UDeg4>Y{+NmYMvd?yBgbb|A%8};&yNigrjZ4
zC&aUpYg&_U&RB^|`H-XrSI_O_YSTNQHlua!eW~IKSrH?0(6A1vlb*#Vpa!t7*=1{Y
zY)eKjxyIDOHD`_qPJ<!IdqB1FY~`vr!y0abORKo*bg95aaA`GHlcTgIK))N4P=wE8
z>2d3?<kP$UN<Q7niNI>wwU+Ousj1~!*K*EOjc0c@3@63>AiF&$!=?CCc=lvax+v=a
z;5FLK)#lp&-0oann(?xyF{Dlrw`WnC+C?;Vh5G+NQIOe!4NdG~ylcNFjmw{=5T<c9
zb?SA36~<!T^B5K@sb<o=lyP5~wzJs0=T-KLV>Y*C(&}=9dWa7SYsTeyq<jp#FVoJ+
zG20auuPj@LBP<ghW06!(6M*`BVz#j$btqn9W5zD>;;AtQTZ;2iVj;2Epy8#&lw<J<
z6C;kr8WS&OoNiv~aywbD^6<c5Oq2F0@DEwsS9q1x?VK93S*#3G-^NR=#K4oD6FxTl
zVJk4c%{WSHw`>>2tW27H)~VIxL^^pcBMC-cvaM~kt<Aw}lcn~H)=A66+N>j&zRdRG
zarEJ+21m7c9K@`g0QKB*ZqjL+aDj!mns)GtQPw##jg4LP$QbK#TLddqBNV%^murfb
z10)%PVj^jc@-l2nVr!Fp9m($mn9P_gE?!2c<l@z<rm>4xrEOzS`mHt_Pfzf)l~<FI
zSx8G>C1h|*ULjbomUFyx0)}{*mt#^)Ixq1GoH#!=dY*^nzy;7B$;z!3*ZHv#H!mjx
z1BxaSFhsIqFf<!@`dkyPHXzS>Chi91f(5J<9EO&p-TM~cYlNSx7Q_bFy*r;}_pY^q
zAL)(P&2#3UK6o^)ulK(6Fe|?-HwG?zB`-=C3w(-%$?R7z8;gQRk+BYE%R^<zwB4tE
zXfy?8L;c9y6e)`v4|tCzH0I#$P&+DZLYkf4o@Kc%p#R~U4-Ey^Yv*c%mBCYSL$yzy
z090*r2mOj=gAwPTi)F1LFpRX7zv{esWZ_8I3izrHAngHc2(MpL_<`t#a$Xs#3=PMN
zT9CHI+lvvMe7_^;4))DiLRV1XPNdx#*%Ph$Egh}Bd+^?CXxAXp4hncj-X97{f~V%3
zVLdW!3y-0~Hl%Hf*4!)j?S*^hPn+%^LHkc2?Fm3@C<~cBqQk9W`9ejc16A&hZbF-T
zk)iK?O>F4ISEo+LhE9Lk6dN8xFO4C?n72QnF9}}!r8Qg-8lC^UNF}P+74e|*Zlv$I
zFT3yl>cq+Wm%hx4of$=kN0ENi`_dz@r0e{3fuo_un6c?&_LJGWvkz3A-mXV5qvpV9
zkXzC=`sjaC>jTzcBQn*5YvZQohxvx<@;P}>7CIU3{&i)zZ^06|bWeZxO;p`^e{0M#
z@gRTF*YU8V>_+W;ZKxsA`&o08iMHK+`QB*km7y;tQ0q|awc!UPulxER7MI>I&znOf
zk($r+(e9}EZqvQK`_?b|QOnD*Q)eC&pY^@;$XtB=(%hxs#c=Phn<Gr5?bgfD(fjnL
z6R7b>Z0OYo=3~CYiNew}{V$-xx^M?7*zW5|m@7h6bAPvF+6JUvY`N2Rt1WKYwPf0Z
zOnZdc#!a2RzC>|lXlQ;@xC#~RSTeUDbIZpqpS0a=i<@6qG9N(Z1HWNEpZ#<;Zhi^(
zR2G~?h4taHs9-Pj0Q<58nHs`xqQd>Y-bb+OYUXNSi}!?f#SOK-u7{?g>!Wj{!I99F
zPfd3_?hT>ZK2+X!e<XI|wXe<&$4(4?>5RQ$MT6EDGZAw*5#vOI&e)~d6^a@Vy(apW
zqReMRzCOI4F=lh9CcHIn*x~D1R_Fqap<-m%h7{X;vIJz?!9!xK3M-MJ87Z1^nK7sd
z)2OIE{5mr4M~eMEbwXhXaG?vxTo)cdrhQ1U@5ic@dP=u_rIAvABj|@*!eEBQHq<N{
z?iAlDjx<Lm<Mmz0&;`e4{TjU~SR6X_(NIJZK831xqvG92zdNdg)$IQ2)noVjQ1@}P
z_c+oYhfx`d->(cF57r{Xme3G%6mE;Oex{GKp@tWtR@871=@0p2*m<PzD*~pV@rG&M
z6q4OkFQ}I`??IdQ#EaXaBY#x%EU!PD^=qDcps`cKG0Pk1)EhAygHAC>&wQ7mYyH~5
zNYECR{ZY|Gd{MTv^8&ah7WKrfBZByC$=lMmb@+m69E!7pM-DCs1^kqZ$fIJ!Ki2sq
zKB-SPB4#946&|%;$B2oWqt%Tul90<i<Jb8me(8uf<Eje`u<QV1$l=-mQ#py-qj6Mi
z&=2lK#K||t#K{;DF#=`S`Qy>L)9!XoO)f^@!VVN{5hunY=VX8pjDhUH$kNJd?)tO?
zi=#Jy&t1O?uNhCf306mOJDFtU#D%5jG|%qE0aq<KTl{VMNn=^JA9<QyqMYMcrDyK?
zbPt?@Q*v-|@7HnKMdj_J2}o09M`D8v%%fuz%ocn8vjT(N3`ut)T!N|x*?rK0-H#)z
zP1}-n1Pt#}T=)c^kDrM*a)bJ54lZc%4oW$AGR!BerDp}d2-=gYxKw+;cti}N5)ZB_
zpy0}t374hpAi#qwSu)Ubydy&)#(Jp>Ywnx9Uaz1#DcUEkQ|B1#f!T(n7L|Rk>T221
zPV`RK0Z0gq-@}M@LiFEW>I2h_()m)jGLVFSfa==g#V<ZAuE;J*6mR}oDk|PW_{=R4
z`x3zNG6vfhc5+R`9)S|U1uk2i(y9-7Rj00}!CDxbs#gj~q+m1HK>dUpWcL+fVz54p
z3TuJ9Oi<lfKhB6<GgI|>tP7{}@s;s8xKy5+X6-H)+|0-X1(|&X16Sf`3y!*QYq`xL
zSW9c2<Gf@PZj^Z1Cg}Qvy7>5ErS*+BaE!wtfzZY4l9&Anz`O%L*DJ84{^F$)y1Z+n
z{!wpV!e|2JQHTm5rOWg7{aGT?Z1HxlD6lBRTBJsQt>51dQWrFYVBX@)9nUS#y`kTq
z{^Ill&7hxtl&seWJ3t*8jaWZ9fA{<Y%|Rc%tkne!{*!?V{<GfRM-qLY3Q5dCI#${c
z9!eCIhop(3;$U;o3ZEN_c|}P73w3Dd=IMpgVe5xy6Ge4PMNO!vDMEve8EfrcYVAj@
z{r5ZKt%Hf$x|=f#Gap`xRQ{3+(gN@Y>ZtznqECzNRsLh?#tn+fZ)oSWA#1#-E?jeG
z`>pL!I=*dxqPjWtUz6Beo2aP%bE#HZyHZB!i-OJXX?)Ew$&OIv&FY2fa7U>6!$!!G
z9mms`dDW^ZWy?Hb_~>HM@ni(zbwwN;!11Jjfwt)YzF0bSBt2L>g2|B`QtTJrW{Af#
zMQpMmLo=d9aT*J}yBG&gUv|i9C55{T3HHW;e+q<>N5)Ci6eq)JMvDClx$bkZKR4Zv
z9KY`%{=Dx1m5Uvx=9f$KxYNG9T<@+@?A4>-6uGIp+QOY?(c?LMtU!6}vB(N*1aGc-
zMG8No#CHlAqs`^R%K4%Qgha|euH+QNpQikg7_;^b=#is`)Mz~L-UD8pQOx(pgx`*+
z!FLRMcNX@ZN69I3QJNDmGNRCk7zO?c^hoa&B_|ul-kYqD@tQ@($v0>r2T=^Ih}hB$
zKK>sF$LmD`YnD&g?bE>2M}-b{97-mZ4+_Fz0LqEb6~x5bIE$%Xp9fB(^Hy*dNiL4r
zFY!|HAb^)x!S#e=>t$YQ1DQ1qZYSrAgAqJVKgQrd42m#&UV^<Vyc8tDt`;IYc)9Ds
zjNLwKuh+0Y#m#;O5!}?Xqu|rPoyjg+MyBz@r^^=H5&qzw1jmVlxJ>X1saCd$0FviP
z_KSA#@{pvHVO-eTPsBqqN_sNZJZWMVq0v9U&xN%EkPG>GY}LYzv_g4J=9l@{!2Y<R
z+}n}R>hP8KJFkKLt}zgC&>5Ea`s14I-kuyKU^<`hzaC@|NRl4#B=~wEKNviQG@F;y
zwMbnXro%09^$u_MvaTR7<9CFlNLw8iBW=TyrUhwQz~VX=*X&zTA42LwadqdCx(BIy
zerNyv_!r}G^$@_R^RDgl?+d*8&Wqmehg!q6v;MO|J+YGLUlfNrZuTzphMPY;645UV
z{-*l#hEE&rTmNwW%kvMkr(h2G1#`y&7XruTl-D(Lnh#FgI6Hqfo?j0W&oc%(0^Ly8
z?Vr8o@q3bWdG+4I39Ttu7qZT8N7_2<$1svUi$l%xWuYt34;Q(BYWK$RV}Jz6MEnq9
zOI))F2moVk_qPW{adoM;I{}`A-NCAux;!Q+C&GiQB6}0ofek}sOCEPf3NOuw@OT&4
z$9lqpJlBzUfMvs@JbZN`d$xT7*N(Ek$_5gpSrN8vKon$$6sz`7?zEl4Nm6X5n|gg2
zMyJTAlV;S#2>YP0PAxqBg6CkcFLScFw16E?3xL(Jq;LY8%fu!j7hK;LCp>u*sLYYa
zYVZh71@@VO(<Gm(fye}#Z8eYALkkb(HfjSF#0E3PibPgO%@k}+u#bhSr4bQ+UBT)8
zHrNDVFW`LlD+%@Pf5LT>94rIbU<R)w{1fk6!bCxJp2umz2j78I@*!389)bOdflIMN
zxCPc`h)xZ9Gv;Nhr-1N8q9^mx!SmM15#d3JLU@IVUpkHP^f)iZK4A&*2rE+_?#t|D
zjOq$Ru9Ui*!3qUVs1^{Br=9F4(DZk>`3nLc%qzUc`MI|adpo={357O5`<3vNC$Hez
zoBlVk#`>$7o1O(v^yKHSfBO1^yngTDW#9&9{Ab=7hKE4dZ}|78ee^@UDKPW%GG9l+
zSPVYcp<vZqd#DN-YnH%WW!Sd3`_7BEUW^;|`MSV$2g>t>VE5cGID-mnzzbKfW69Wp
zj4dDU{^Z5GFUE}>zHY27cg#z{*H+ZvJCZP$1doGC{#vLJZEC`<;N4Mu^hmS}?dnCQ
zUhwD@l?C0Qj?k6RQB={4ikc%QqRr8<Xgk_{7?}@)8?UnNX30XyV$Yp{TLbaR{l3G2
zp&*UB2%JWm@<jFan`al!eq8v;rn{Ts)dyFrL-f2dF#MHf%h!37p?pP5=}apIN>ku{
zS@7~?s<BuK68;5FJm6p8!x2B*5`_~>kHEF88`=vYmnR3**<>#s$p-jn4jz(z2Yk|u
zCpJ<}438+2yk;2ow@2oYdlVjJ#-mB#rTFx5;@e5p96VG~PBlh*)SOy4C;MO`aA!5c
zSV12l#^Xy+0vB6E?yKE)xQ?+|U3N=zy_6gpa*4$_SS*`~kR~P^XbY9NpbJM^aD?Fn
zdy|H%6F60HgCakdykOCsvtUgDuGXM}r!BlzFy1ZB8Ta%IT%3SmIy32Zt)nUw2*Yx+
ztR1fIh+g4pVgCtwd<Z`mK3(woSziDybcObs+ONjDC(s+(BkY(5ii6&cXVlc}igeuD
z_Mm0}Nw#`>d~M)>ul!a+74Cpbh{CA+UfKQGc)=O(z>0=angX5`sU%P4?OVyGG)C_r
z*=ImY%yu5HKm@eJM25>n>^^x+fly%o85bA@CUh0je4a4>9h30Za|Yh8@rqPRco8Zd
zA9It(pS%)YthwCw%hN1*<j5<mGj6AQ#sQjH7kSG@tbej7yzIE$;Q}h%fi8r#!rX)q
zidPFHwv0L_nOl?~?6F+r741__W@gfUfc*nxf$2~#F>JFHF-_BdqBQ?bY5#*NTai&B
z#oHxsm3$)-(*;k&lt{CJQ$P}-d_`138<wkUZw@aEuSg*c5H)o;_l+EKNeEoNpAzZ4
zrnf8Js#sPO`efI@H5+n8yJADfV)hYa8jZPUfQ+4@F6?Yqc8e0<u@xKL6?^5?7-L7K
zk(kR3xH?3g1XtG@T%FI+ijB71XR*WCWRI~fKy^seK~QyyR@5@B>>C}WEc#Zj6p2;}
z(u5eI>76S&s&ea1&4Oknk7V;xSv|=bQduL(7NoL;Bx|C|%5SvKx38E<wuma-bfa;;
z@tb0tC6s(ph`Ti5{5R)Co9U*ndubzG5jb&ucy4%wf@IkB1b@D6%%cl}(i@t2%?bs{
t@QFLax1a?i?-l;O?29szjGg_#6I}FUX9;cmx}D0~8rN05r6!x?e*x!Khr0j(

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_815235.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_815235.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d10f62eb9d099cf9db38e374e42f4cf6c26e995a
GIT binary patch
literal 14927
zcmeG@ZERClmhU}3e?P}x`ThVW0TM$Xgrp>t01XfzAAE#wQW%fp=Y%9qoIKkkq|Z}R
zvBGY<inC=mrezkl8mXa0YFJfjx*Dl;{|w#zF@6{g)>~GJH2lf_3KMp<+Ld<p-1q!!
zlR5;ZqmfqPN`Ck2+<VVG_uO;uJ?HpebUF<N;a%?+7vHVIu-~JM6!gi&5+TR1X^h5b
z+=X?EG2V>}d16S`P2!jn9}xPHnu;+^ILQI(`7)HFWh<1EE0oJuC|9gduFPKEOVO&U
z<d;c=x|IaN+mHo6HLanwG)3!fl5`H8b4UNBOoUpog@HCe8?lA)rCOj7Ovx7Jmug{x
z7Oyr2!s*q<K=XLj7N!(dFE<Z_li?L-uF2k_Pu;B+)+G1GtLRksVRY_i_?^5j39<J7
z4VUJpxirPCS~W&j&;?Fxpzz0Yr3+UmFIu6zc!ly3r;aYoUI)9U?5eywhpt=^i#0-P
zefIXRQraskf=Tu&=(RAS0Y?0D%}>NID-C-!v;{^p((CB*t9Z8w_{x-`zWFk4UB7?`
ze}q?_IM&&A($>LKdpnQr>#&_@>u$9jelB<9xg0<qJbv`lF$q%LcEZ+ry7h>y!;zP<
zmPmpkIkR+MiR7&pm+A(R{43>AOygfB>-~8dkYpx|m}X_HLD~WS{8eB{)|i4VV9jj7
z1jv4WA)Ch*P5>7EBDRP%3uVP#z%n^PK3hBi*t6zT+Y+`I+LTNvFl+*V{G~z<kb^SR
zPZ?Xv8c;tO_^71*(lL#vaToeo!<Mnemui=qhtO{As^geaxLYLL{N>VU{t6oRSF(DV
z7~GFxOie~_+17@T)+Pfk+sepUy)>#o(@GX&*TA`o{S`rDy#(3=tOC`r7F3GLlch>j
zie@IvZXJt@5E<=MLc6ug+Nqyww>|^EEax|CV2!<mH?<tu&hk4lX$Jlc>>5@!h*r0X
zUCWX}s+yIv_<(eiNcDta($0d~Y$q^|=8iaJg?fQDs9xYED^2=0X3Ql!tv9AH-NaV1
z7J+g#UbBQ0TbaSpm8<raUODK1l}mlICh4xQ9}D9b{tl?IIis&E=M=k+ty;F`%U4^@
zZbthHQFH=!JuSbZkVf%uVQbip0u^e76znltDde|i<WVU;SPj_Jv9-c3rVuCix2=L3
z&Td0=Vz(~CFvUmgiX8T%Hpy9t*rB<w)z5P$n%f<fL`i==TR%`Btxh`5;KwW{p|tb-
z^)ERy9hzUNRl`fR%6YEU8*DwTM%eqeLrOED25O7>Mt1uubI5W(maw6<Xw{+5#-H3r
zW5&FS)3lUQY~8Z;g)vhc*2FfjO#-*<U^is+Q!2Gi$Ltn%hqQhZI>3DcaJPvSr4`Dr
zW7k7okWE7Udf-u$kg5seAKoA_c7y*-mS8o@<)9?DSnYC-lWP1sf3%OX@Rz??km9ft
zn4*litVz#7O0hfHH`!+3$K>4~$1Z1{Ru%~^9cOECn>xY(t78l3w6@~Boc3NGaV}UO
z*9Si#SP7mSvU>)3x!Zfu$t)mvE6(IVw17nC0+MG7=y<$s<O#2f*NiakKE^&|>!*3r
zLHA$cWkdbLyu!}dhx?qoe8S1NJ-o8l<+gk4xAF2}-;mSA%RLwEBTy>>kx)rPZ*E@R
zKP*6v!Prh-M!UTL>UBd}WB0m;`W-eqP2b+d<1IYCm&f<<_+cJD!s8vh+T&&VX{XIT
zluiz&l06y8;Z&(34eLmk_Kc<gdOYdm1cQjrp!qW(t}q7V7{;KB2ZPAL%SM0#YM7o4
z5;o{rN)Gb|DcL`4>to!$5nd%kh-TW}e#YZXwxPsgPyd7ydXS492@z1#-P`MdQZbhD
zgS^t?wKHC*NG67*#2_q!ZN$rXctwvGYwZq)Z^-8YQZl>(Ei>v*h=+MidTgE=74fto
zOn3^RFVuQ$gS<+>W6(Cj<AXeIhb5!OZKJ#jMKC`gp3tH5l5?0(&Ih${dU?f&-7)B-
zVMQHwmy;(EYw*PAR`}KN_$ZI}@CwH1@wouhAz&=<oo5%2*YZ=se;=zIb2Eb;7~ffY
z5s<KZFS>^}+xwiu-dYdisP#IBMrt8f3+&fm8?t+WNLxlO+n~q>Y~^(i+Z=9SuBN&-
zw$;A@HM~v)vJE<!VW*4v8K8*x!Si$Aj{x?p7}M$|H-|Py@VKTpu<x<KG_9OcM({{;
z+)y28Tb@r8R7U%`g4!6Fo6wtL`5QR>hQOhOsW@_;Gg$*2kInhv%h8=&!IoJnZr&B>
zOi%@p`e-RvvYDf{1X>e1L(E*s=_+R^j%o<B&g)F!^PH~yS9?Ei`?PJwK3f`Jx0}=L
z4jf3VSo2t?pF9^j7aon&#C27H1M@lNu#3y72pmjgr1X$g=7f#!z4O?VJH2^oa}<x8
zDt>kR^E02GndzEU#@9D-rlz2BUY8Tz@UbznKT<GN8*SrEn`afX-hb?x9lNW)XXUnb
zaHbAU*NG5%Nx&yCUiDOUq;sYwR?_%u=DUe+Cmx#G104ySIcyJgqpp&Pd7~*jIz2Wu
z_R-~N%jX9_Jvh_yX*(ib`8QQ}tLDn@ZsZD@IpeNCd%~O-=zL<%n{J$HjMPP3ar34?
z=e#~YlF#Ya1`a(2YBk>67ggS=_^Rr5)ol6fnfS(CoMqSCXuP!LUh^Z}u^|4K%9%VE
zIv73>&Hn<QX_!%dx_0)!T*E&Z=Nj)Gy*GNl?t35CaF{DU5<7kFA=Mqk=M9CCPR>vr
zlqYgaBP^G@X%^?qbwO1kuPjP&c{PyDt()!Qa<>Q7^X5XRC|Db{as``$)Dxq5x?rjx
zVg$}8vd$d(hpstt_6%3E>z<mcY2%98?jMMqIP>6KckD#>4@YA^>*G56xT3z8d+fpZ
z<=8v##>U@$ieV#o3$ch{t;7KowGr(E6t+SHxue7}l-n;xBls~?c#`Nw(c6TL_ydO7
zi5@Z6gCI{54ivd@2k{KUOf(TxB#Z^qMN>sLx7}*G(G)kX3o4$Zc0earSUt0YD{P1x
z-U!Mc>y49Rp)ugPX0D)W1}0e_*Ea;o`JCLaC*%qe34LC~7<wn-;Bv}?#5^$RsnDtG
z+os=~dNZzD6E$+W3INJp`~+6!Q0P$j+{dHQb&)YHuWH6Lb39IM4dMyP7;Xu*!D6V)
z*O}={Q<oz4sPQ9~Q&k4F2~|$GCR)UqHgc+sFq`FBL%5SuS>9JI?!a=o@Wo~<rwH~7
zFmh4k^k*$mZ}i{|8)vNHbTu=V=eFNl_s{sfs&Dsjwe6g)9oSTB{G0Od$#7L@PvmrT
z{}<%~xV9#+AMLF2_t?iO&7>-%3Ii8L>EEd~J%PL~qzm^(dS@Dbr`oy%f(BbKpwC<A
zgTZ;uptpmS%z8YTP!+*zkQj%<qR$DZ8cL7ZnGw%I0BRX6`oN_KV^FtN8M6_kH=$1r
zDj;~J!#&*F-{;|FgU-vZbp;vsHFWwf3$JwruXP1kbqTL^1<4o8YhA(fB13v-zt$Cq
zbV=$PUh4{g9D+9IFRUwIkPenXDne!he17^HjJW{a@cGGSlilZadws)B>HX9Xm7{2!
z<ol`g_50~1pGB|VPp{ukuisBL?iJooj17q*e4NL}c!i*g@-Rpd4T`f7SHBl@T%d;X
z`j}w{((_3HJ+K6m=uP-uBd=+$X|GY!7>f-^5E=1#fO%i@zSfUSP8sD=@;vBO->3Wv
z!6cQu5=nI^&M--37AMnmrb#MW{qxsMB@5%wGGvHBW*3j49ivI9<P$LAu!>KxU#6T<
z-opWBq~=@}yhy<%gn=wi9-(KV9eWQ?o364s;)FCIZHVfX0o}5U0i{`t5E&*WRZtVu
z2B{#~OVY}#D!<yBGU%~t!AOY>7$rQ@F^$uNWDEcUrD`=8z)^#g`5_8c2pdQl<}!Lr
z8CF-Qmq}MTpyrF)XRl8g)dAZVx6fXm9-kP<H0>v+AaPjIjBI3ytfQo`7{=jI`{(M3
zU}Z0blWcXILL`_)kkSGIj<Ko}m{l#BIYgxfs+uTk9UpNzyiVF8s-P`n&i=lOUW;Ib
zuuLdwEPZaT<u<_}=HnH#^HRUV=|E-@DInfQtFVMjet%1@<`NMiLO9|d7EGOpD<$5`
zP#Yl2%CZoGT|o<bSArLKknAO3R<a{$<qqg$6rx_5K~_ntoF@;ro@`-YcVii<n<2=0
zkPNc~Ac!|GRkO=J)I-~MPi#uw#c1cK&pzx$HU~ld?b)`a+2sZmy=ONhMBv|{o*Lov
zUjgi~DrZs~(uP|i_*848A)3RL)W%g?zux}M&bvG3M(?e=_X}?C>3IDaPIV@s(m$2U
ziWGv#1v?TFbyh7?1`&g7b|S&$V2^NIWXhp{mxC(adznF(K?dClk?F|p^@1@$AzFCA
zD%3w@)iFq{GK1*jLLVf+88l%*Va2ODY~oTg?NG+!4xa1-`_M89d63ErSr&edK9;xM
zdP^iy(Tb#DegQ4+!_RXS*yDc!*rE#48z%cgeOC?!S^}fN@`TAeT{Ts8r313#iI>(y
z&uh(~1Z|nR^gvs-h!Ju{LQ^$^&ve~ZM8{_?&0d`Cj;Y>Sl0iib02COdn`{g<UUyCp
zP7OZLmdD8Qn6~_hN+&E$7g!qV!fnwmq?VuU`sVE2vkz6f11<ka$S6f%|1%9HFNrj8
zq$QzJPpU)eaCx}v13f5}TW+=8Xp7osjGr8Zs$fe<9vlsqBPgVhG=88BcTJz2IvcTn
z^!6(hmR8(qztR3l=S<y$(wd+`P-fa6stRYz6ECPLvE15mW5*{uXN({33Cbs_5EbtF
zP(O<&3<dvT*2oo$`9OrgA%V4oRd!@<DYRh`w=Kn>bj4#D>imRX27XC6@(&XI5<EF@
zK!S*ZqY=vCOa4+WiAy*fv4JcHwl{T{4Wy1q7(E%Jqri`@3t*979#{enVO+BA3Q*eR
zFo2zcR;GOt&=tZ@!UaRllE^j>R(@#XS9nvGmTX5Us}Sc%YuL2khJq!v$h!x%SAyS<
zkOE6NpaAc1_`b+%W`(0vEs3yIsD+f%%R-7;DmeO9pcYL@)XJDIdaf=D;CHF}3?2CS
z%PJsyCr83@0#<YY$?0W*R!F$~q**9dnuRnzTm+S?!YEl4T;!C!GB^zM;t@9?>#$T$
zR9Y=VK9ASZ<FtVNz2DQ{<8oShE?d$DT}w5OTNnNaLD27?v=R(jR$e*ibdG>HWzdyL
zI4_fq0P}ko!D>JX4g*43urMs30}|vo63-xm1vzd(Z7-ou34D0+QonPISK7e~V8}ks
zRG>0BnE%1#EO)?hG9t=(1&DNyn-O~AWgg#<RV|8iB(Fs=U4xnuL&NYJXHKEw(?ZGk
zs0VR{AhOX%l-auHPBG@M0b&7uo`WE#16V>!A$fUaKN8ZA2~LD|N4g$p*Tl$k(aNYj
zdLmZcalie3bL`C7nB`oYJQvfhnFqN?hR6?3O<o9Hh^tBhElB7oLJAOy72$!nsyxsF
zW*=lWjnqZy;JLVN)0G2(y@Ek1ToF1GAwow2t&b_=WJjnYB99txXre7qU!2+uHd`tu
zSRc*{?F{Un2Yh^?9bqr0EdfK9w)~N%n$uLrH5(tP>o|2C*d33@)lHAoJ2~~vU$=hO
z@oh(3eJHSZUPDb*g{nY$ACDO0nv$EoTkH+?i^KOSeq;UK`fzP0r|Ep8?&8#4vEwJ=
z>XVPuXE^nlhi5N5I_u!hI^t>?`T*qGL+x<(RK%$=KufEi+yS_BMToez1mUI&`oeT@
zPmC-UM6Dww>43T^DLb;7loccuEnJF#+woQQ(~D#%x`zJg5|~&)0+Z<n0+PS9;Psm!
zTR_4t4>U>3`-lw5k2c4$0HYz_nPnmUpb`ADl!As&2{Itt(?uo8Adt=3r3B#4$|QLx
zK>f+|S>YLwdh7_kwb>smX&5+xR>l?19pDudR$0X?(mazA;zb`_@0ly`u@YO7*M20p
zm=W|r)Li&qkb2UU(}GG<qKdhSvO)AgS5NWIISwga?Hl%t`kYR1ei1#F>b6@|%P*U0
zLG=!5ElR5~j|V-DCD|m3CarH6T}FlLHS-Zv{}Fzke}@kUrsuAUDnqy~L?NkSMpEUv
zZ`wcQkL%Wh)fo0E*s`ymn!Ye~Ax>3-lSf(>eV_x;q|pZ3LNzzn->SJ$12@OI=%ueu
zee?F+x9=N&Tlhoa!{Xzd<~X<@aO!ig>($!H;!tsT?+0tdOhKq1Yz*&>XyWQhQLwBJ
zt-mgx)=lZ+nl;h9&)0%igDGC#z-b!h6pxw?aZQKro8nEKoVqi!hn5e@9;u5sbrImP
z`NrnBx*BS=x<H#KJ2LqaxlW<{(lhwLe|m7g?8VO`xS8O+1fA&xoGFW-7Zkt?I5~=+
zT%|vdB(Kz;JgwS*TbJw(DRJ_7z{9WbEB#0zk-D+4Bs#C*)Rujjyp#DgaL?29<9;ox
z1^!hWVVr<5_|5rfJDkbrR25!CaKa+);<a8U_=Y*`9;dC&Di=6c@R_5BnJEN|4msgP
zVx`1qA7Vn$Y%g%<QIze5kKkBm>*19>HqrTt>aijBE8B=0-h4c6<8?_tC%4Z#;`8!K
z(GknzK{8F^W)zDYohu>+=Qlj7rDr4a_W)ZA$F1iwBm&sHF*nej@gxBcneAWaeN%R~
z?4fE;pydTM8|r6U?rnUy;V?%6qX!$qoze1V6qdIIT$%Fbl=n*SPsDS(1BVwWOr0P0
zFUm>1B5-igfKlea5$UaoZqPtTL}74fKrg)o48#R<3l-#wV!#7wUN264iwis!ec&F!
ztE3cz6eqlFpx?`@!T-VIb&iiPg0mN|*eCcy@G9^O6CEQ|l2Jo^w<=Bw7aU#&1Qyna
zmwSC9E~mI?ND2t_;<X~BZGCPReH#;BGlH!|)jZ^;eJ<y2<_-V@SusxqaQ31M$MN4|
z)W2f7f5S@Wapkq*E5(b%aU8E(%)xRDljlR{7xhBcfPrUI%~Z{zF`2Ec`^t6OmCAPD
zhw<Om{2<kvByh6;o{JewlWd6nLmtX5$uNRS4&x#)xhZhq+TkmQquXYg`}K*+bx&ou
zc|&4b{oLp?87|+8&y&U^ME#uX{_z(=Y@7Am-}@6G>gR}6`dA&0)%#d|wkts_R+=dy
zpjzCB5yn9NwY68)MhZWB_aWYx_=~O}TE?bDQdr<&0?W;NDqn-^5=!bCdxc$;p>$!{
zE$Rj(rnl4!3?r29JM^38@0*44d7WVqwF5nbLVNA}mGetV$UWVQoAHwHsp<1m=NB<Z
z&Ul1q?$o_EP}5k~=|^1`xULH^8~w;O$k_&C`v$pPt|bKfw8n(zgx{EMo@!piAUTuw
yRq5?gAvx##&h@QJNXE{-Eylfrk9rxdmsvuvOWTWa^V4QbUm4F?cSS4gq5lJ@3_hFy

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_816192.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_816192.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a25f16aadf1e289197e564117edbbbbcb12444eb
GIT binary patch
literal 16119
zcmcgzd2CxpdVi06JRfgTqAts#B+Hhq!}2BH4sFTusaQT^*$F}OQ8Xo4$0H@#%40$=
zQkYDF6_spb+DQ>QyKU&T(I|@+D=!v^k`|2@Eq3`rArjttw*odm;eQHwZJ^!$)o<qU
zl1y24f_4DTo9p{#=9}yLelz@6tyWEdd+$d-zo=bH5Pw3Ew9}^okAEv8i0cGHFk~;$
zDSpXL62~Q%q@5H=NC-FCjX9->#V;daqzuK#82LvOqhMrrm3O3K&XN=qP^eNAYDWDW
z6cVWAMJcEkq@cb>9jX_u<A=10eopC9`NzYf>XhR#(JdT76m!cx1f%(cWVCm6>G6Z{
zHauNYMW_g7Eu(i+-KM8=8N(9k#wF5COQf6gr+29t%UiNLsfyFzPBpWRDR2|rg?U<3
z2<b(6(ydFBFIu8}v0KZO<frM<Fr{zFI(19Vcood8vX3MT{amvh&BW&~t%A{h{?ce}
zJXP95b?TR#8G2>~Q|^&0KQox6#(0T2(M2&U-=flEnErMem<o_`Wu6hUEs<WCKfO!N
zRJ}!YnwUB~H}Y|;#$#&EPyZsRUD9G`Fx0pT=7EK&$xq9mIhU^;tCvU@+n1LHR>B(S
zT>(?i)V@V_7Q*-yW@Ko+Le@4sL?Uc|7zF<zL4x-Z3Ms*>r3B61BQNhe>^O0-v(<5Q
zL9Bg2?69C|JO1*iW2ur4(cWGw5!8J{mmEI7)8qCDDij`ZvID+{6{rRZc@k7kDv(D7
zvRxn#?}xC$)!*0U_4ov7kNb+C8}hjwt|7+h@UYH-i>v|&SkyRH1)iWdaqP&!la9kI
zI&xgO>lc+lt$6(Ra&%_-p=YA&Ms+T740%^_CsiU)v`krPPTAs|vZzCg94F(<cT)8Q
zN|q@r=Pa4BrJR*39fi|2P{tK;Wuw3&u!38`S#esqABh1wu7oQeh0b%<4DCv;9B5XK
zLcd3$OrQdDfEc79J~pm`Gb27Z?LpF7<QOvBcFd=evvHQ^qRaFH(^YZBT)}hE6{P!s
z>8d$`s|4MG_$vuRbV<<4;gpCESB+9pdMZ_gQV|WNTg8!Li7XvMp`LSUOkK5znqEL%
zlOvTpdJJdgEL{?RMpoULOfVC;D@*qyu-c#2oj_;G;hb--D7XTy5Va*uo&L5E5%Sf8
zFmh|SHKHWNa$Gg;Z!K5LnefQ2g^;2Ljq$piy7HXP+$wI}LMbrvyNdLQ9;oALMfs-X
z{(SNa)Gt#j$<?D4i*@IW4w+MT1Gjcz-JCA(sOi(A7HC|iRw>t*x7OSquV01-^;D}2
z>H4`UQ929d$r&^GSkgJY&8@cyQ^VR^NX_7R9@xM&aT`WqqhnN~usd<<5zoLz7##|&
z?uBwn(QM)xxJ_A_z-Df<NXKnN`$S+1w>qb<d2}<bj@y!+d81mOSPio!H8VMJrJ>YS
z5%S$56v3?yG=I<iWb60bPquMeIT@bi+qrF=9EWyr5^n24d2pJ{2y9y@T~3?M3GC#y
zFQVG9uq={$U>8@&NPE`6p_9AcTQUni6X14o&D^fL>hww?i7UCgY#zNcA4M(Q&cY%l
zYDs}|UiSJPqLYb*0Vi&gf{gKB8F2qcy2{%Ufx6`M^$4<l|3x>;qV47(@@|vtO8C@j
z1c|>_P!F*EaDZNNco~6mG2UT8ddb@-$epaS&*K(kqi(j}Cn&ml`<?!c8w8n{OhJ?p
zq)fkGkoo-mtXoh!{r#7`E{Bt0YIh5yT_E=g<UT>}b2)q6J{CkoutwyeiN%`16I4Dw
z>t);y=cR10ClkDo6YR^Ry0T?meS$v4L9E2#S)7n9fxF@GtQT}C5-|Z7d)WS=0iPG*
z3pEJViW-VGdO<n>!jXaJ7!{Qj6oiH#y#)pP1VcLL?E`fL7z#@KK~kl=ysXcU3tkd5
zVlt`^IAETs56HZ~tIG$e;x`@dfw6E5_*tJIzaV~Tr^_{TX{Z+@&I%+9aF1gE#z^LY
z+Aa%nH0X{VfpiK=#L(?`To4o&9IlH)eLaE(i^?HpfK<`wIEJ0Qf_!uUe-*xq-Y!3M
zN$%|%c8m@PsRXEI#NqAp3)G0CYd|1ff&w=e1|${e6BM{=lp+Rzi3>LwPdMLhkY&XW
za{qIzaipK^@eMd#?#7EwSC7+wvA?e#w8%bxqmOkp`rVfX8X?vQE#2g}<n)7>8V0U7
zAjtuf&EMbWaP`BK+uF3HY1;<K5wv0<M~|EBbN8|gv=Plv-yc9l3=&V)60~-#K3pH|
zm{zY0?t7rojU5dijSfz0Y{Ay=45sUfaYdAj?o1li1P?w~6rZ(L#k{<=F+o{o^`=B&
z4X>{W9+)+iM9=f4+Th^_=EBI8*bd&>Fri7BcLk5kYOK+Xu`<52p4T)4TW7U~gt>~>
zR>d{EW>c_rPHT#s=e4$<?fvxNt%GsrL|L+WH?Q3t+&}w0a^|$UNX<=Sv?XdCZ;Tz}
zP4yG<3IDG;CPqHjPu2445A&wOy!HrUu8VBBX^WnWt{&eLbMofZ@ol_m)5P#3^Ob$l
z^ZA?ii}~i`yy-ZvJrUghoyl^2&G?$=k$7FAwE5TU7o+z^r%i{Tx6sC>pIo@^8TUk;
zv9bvTZ);8#Zk^F?3z4%1W8?^LsE9T5hPCn2ykTQVHft=5ZsQHrA=w;+jN`>2ITC+c
zxGl0jRv4##?u;vLt(=rjYj%dnIZJV>h3(Kn3u>YHsTP`#hm;SXd8@})M{UuIH|pZ2
ze_@~SPqf{3OxdSR`$LL3YuU|?7!^G;{zhESTbn0qrYv6#PFe3Y-hY|jevY@E3uzu$
z3a__~w?+5I&huqWlk#5;PE}8i+|%FpO<PWcRNooR*RA8$XhE#tlfig(Y~)t?L?dsr
z^Tqb5)At9zJeN3r`kPnICXS!wTRIc3_V6t|d~r{Lz5LCU(RnyhNV^0+qwskI(~#VY
zVuvJ0B~M^two5|tS#xpJKE6Hb|D+>2!kbpdZM<n+NP&{i@aF2c6r%Afym4ztK4&h9
zHjQt)>5N&T9^O<FH}a;nP}EoyZR3qqF&_vU<ZLL2s(6DfwjV{QIi>k0?DgUCVHhOK
z`)~5fnh-s!)J5uIR^GG*k36s3^tODyp3rTdUr(qkLHnG}9O>nCl|MWF>DgOn<AW1*
z$yIxJ-JW3E>@#u-qGY%S6-ftRo>|2S$s27jBaQXEwthk}N&U(>so>YYG_{Rie?**;
zwCTO32oq`M>C&ht#{AqK^YG;jJlzm%nN#Q@wjXg1l<F~MSQ&w-6SI7)toaV&+ORg#
z1^r^aRjzvstDF$X%YtHX#O?K5^s^gKf_zXs@zmLkT9C7D{}9{fLI-Wyp%WWhk^cq<
z@-_7}`Z~c8-6=~kT?l>CHnmT22sHh4>_;R=E?ZiXQ<}(Uot}rf-&P0YzzeAbiyX=g
zDBh+y1tZ1!p^}qxN~Ep$w9pocQ+`M=GEV*>@i!S11==MGHu^!E6kT_2pHpdJb(rpw
zKyQ`lQrR!0=CO_L%F}vJK-OpEWZj@AE_RF}ZD*52NF9P280A~afGTSzaVl)-5n#p1
zK&z9Yc0iAaZlqT%a#?Om<g3!Pf$W}5pFclKFI$E_e}0x;vJ8Fx{4Bk68T$PBS$gUY
z(#F7%1SdN|)T-M@E%u5_Lq31S1$PBtE`G0PsDH>eYT2776>FcP+SbbhZkON9R2;6@
zRWT~BtMK&uD?kO6Gwxxp%gvSnf2_K?a+e6wxKQPfKLPKrCCh;^VUmL-geF1S49PKA
z@+^QbOi~8J1L^W;8Du9nOpOd&0!&j5T}PzLXG2{Q5RI%oM@hu`VF?fc8YUN&3w9Mm
zL4kH&7Nj1xA22KGXzNLPR`K<rEu$hBWL>DBa%Zpe(gnu3dvsk&3t`-YLrxGlXopyX
z@oi|>+1n3Fnr}A*#KOHm>T3n>zk|dBrEZK4(-C{bA8qHY>ypa4yThNoe*5*wrb%XM
zH^2LMvhf73Jn=wDhg!xCgbzf{#>k|mGG<RIYaYp@#jv#jCl+@@C1|}q(2vps4yye{
z=K$CMpl7-+3Np~G{8!jZs5}}@LDuE%?R8+43G{rd%hzhyE|l*<9@<aYi^%hW2Wst*
ze_+Tj>i&|$BZB&{!=0Ko0_6cyAV*FJJjtqxFTErRtawQ=v2Or@6MnuHm|%Yi60@{s
zY)^R4G+maUHYLh8CBdi5W@*z5UBS~8({yEm+McN1o&=w+M5UX<%~xB3_Tb>G#*CD_
ztF6JkpqUuW5$AYe@DLP<sNdd`pzP60@k8;Qp#C@~PbA9hNy;ADGpo=B-*{jwyk0t9
z3I~iadOB|Z?7-~<llCv#?zK%DTf*`=7%NR!6X|$Y|3o6y$b&6Ul!VL_spcu`tWp(f
zj_gP0tQ>`#LQeSL^UL@S9qG9K%J?f$=lkbomHIJVSQi;gDvP7dAMd`gJ8nys)&U(p
z+nh;dQMBgc`Wy9eGFh_rMUzcW%xal@zL3zEf=BVhsFh$eRm4@%O2y`zD|f?0D+nKi
zCh(VA!EgYk)_=hG?6u2eVOJAp<S?j{Ly-q216Wd@UbhI=379z(hryU-=?n|#ES!0f
z=}+~bqqKmtEQA13U_&7WL7-m&>r<3+48IjEPKN^-IC2WKA3entLp-<#xu8OxgBW1Y
zVpNW^0!&S1j@S}_buk?C6lV-`V$P*GGReo81dv(eEX(1HAZHAU0%zQVMe@i1D}fcu
z@Rx8a^0d4h<Rr}lV9BxivJ%${tzB3vBj#2B;Jp&VTM7)#*Z}OV$cZD6x)KB8Wtdx4
zP7CuXGSbCkmIa5Nk}C!xaet~fYxX)CfjqS;5wgKsEIusRau6)L0(l6IVQt8(1g}=c
zR-te;@>U~n9rEhItE~pbbOhPb2vHHgV6daOqH6$W;C)p@S9SqK1~D1T;wXcCf;xkk
zcyhwo^wEKA`shFwcj?M<>FUew2?%?*&<of=ANsI|P<sK7CfE+t1QCkp!`43>h%A5!
z&<O+^2ucXxgAMQnS1JhtsU+wcE~S6~9Ec3tiFm$(cuEE@!fzB5i$R1}_>i!&2gTAM
z@c=RA9Iz>i{{}F43x2-e!U_h9zk<-}v5jv_YRZDGX^UTseLoA_{2rXok+!fSI>>7)
zkU?#ZwA{4irqIU7{_q|!Uet#7jFFazHQX3I%d2aG`{wio?>VEEh$sAJ%*N}hVpn+G
z`iU)*)nAd5t3Tf}b(Y`Q&g<HPZ4dOuv61jdWH_eat*hhAq-|QiGk9Q5XN(-;b>&%;
zd15<n+r{g4<sqq>*6+?CsfpWft&97A(Ged3V|{WhZ)@RoEkLI;jCsNyu%$-$!kYNW
zN#nF`N3ac=3MSp?&88?5ZRT}VV2SHigMlX|M>l<9%uSwCn<5@wy&`7jRn@`0vub1H
z46iPWNqJROaPOSX5ZMs+M2i6L2=0GC$*&!_dLVQrGAvrN<8Q``dFuvVyJ6z=WXo5!
z$+piOQ&;%S$9V0r#PL@W4%fF7gO4zQ#PAnJx&+My2Qu#fF9Y>zfjx%~H++oUglTY1
zbxn=!IY?aWuvI00Tg}NC5^W@JtNe%#yKX8S%6`MDuo|o-DM!KWV5($55mJR9m63vl
zqs+OpQ)Vn238z4mVCfLufb%bQpqN5Cky|2PmdPiVq0gV6rI##2pFclKuULjYe}0Dk
zPU@ZvtP=&O;PQ5H6Gd9^0$T!|V%U~I8t4CqErBfpX?u1v1ZAlo>c&Put(0X^IHNNy
z(EM2+<c->LHY23%KdtKjBNX#BfR|s@&!he4==7jqq!fD@JA}f+$QwZ(+Vj{e;MLOX
zO%(nRc^@G!qu#Ul6p<fx0NC0iP+bF#3v2+D$aaZ_XlBPv>*)GLy<%@csn6l(n*{GK
zpqU$t2sOQWFt|TtM;fm&tPa{A(1x)c;T?dbHo*?oHPJdvZwC!It0)&n7@jH>73Cwb
zYEet}zL=J5nNgPV%F-xUKjksaOvOgNV&jB8S+QkSsS)j{cXUzeWBLXivwx_2qE&!4
zY#=m-;9=2BLLzY?xuzXb9PqAz*6?x&P<LjZNRwyLp@4*w<l8;)ZX*p)uz!$PF(NU3
zgRrDrbO_}_y8?iV<TGhu7a_T<f{5zMx2J&No4uhH4Q;@dB;9D77dd1kKUG%2DL6S&
zu|OpQngHNUG`g8bVU<6F`E=)bKgMP7h`eY9$;i_x`T|aQZm^fBM<TWd6lCa8dXHof
z|J3Moqxrqa`H?w_U3Z?ly)>7AI;ZY@H+nD%=)_<YSox=NxaPi3N!0}VdPypn^8w{D
zb;bl}|B7@5jBV;PXdzx51ZitHb=rhMuOT>%_`awcUHmO_cT(|yHp>r8DQ&lHQ9+1i
z%{Rc;Qu2Ztw?K_LPRr>y9rO*#l@I|vLk0|-9&$?|*T@;*rWz<XV|UfleA8`!c?10z
zg|!qgyt@MKkPRG-dBWU=K1g-~>APDg;$0u)(a*w9pSjjdoU(h>)2(2nX(@Ii?R$}f
zIU-HZ!Dn(;a;pDB?z!t|&7vkklv6!>R>2K)YX1tDv*W#B{xqTalarS@iD4{ZP6RBR
zinE~6K)TBEqY1OXfZoPr#;*#-ZzGJK`G-h(iCqp}5Tmt~ot=5>kTP_R6teqL{xzH8
z32%F{yTFUA*VH-*6u^qmEg{!aNUk|~sXEj15hTACjS6rm%$CYx+>l=j`Btt_92<}V
z0v4=jEk5r!0f->J;ehsz!Y&sme0Lp;5&}1}W7h&>cLq`m^2+sjSBM$b-w#`1u!1>r
zmlX6tjc8tv0`Q!Mtl<%Z*XO;^>#n$Pr2=2$;Ol*~o1TQHhf>B1H`G0D_W%S$>l^8g
zw<RJ-jTInln8U_Ju;_%TEf7e*pw1$rSf3K8VXu3HtwE&*kcaducp%X~)CaExT!7XN
zzzd6hfdbubD}DeW$RN0JgQ#PzMWx|gh12hM_X!kgq9BEQFo*|-+-``e{P5Vq2Uq*>
zx&mXbj$Ut%yS7M#SdlIwkY@zhVF&9R!G^ye7kdkL^ym!-_y9!9M9YUlc8{P+-E}$q
zf*k2}Zg|Au>hDE&`{*M@4+tn^Rtr+}D1aOmkzAxw3sSa!1fB`_270}IK?-jW*mg+v
zp{0;f0v82Dqg%TG(`Nq#2>uCC4#7+Vbr5h)X;}J>Y(`ncD~poKlAwK7Z$PH()dRuS
zP}3}Jh-~BOvKaXdZA(zCiK^Bl__PgOdV6{8N-(H_hde9~4a0T1Evc*q4glzG4sVXY
zWo~G5l3oR-D7_}wvQ)AbZ0_*6=w4n^4%hA)Luhkkb9h&<C8d={{7JfOhOXr4%2-qE
zLXxfxwtQzOxK5ALAGLmb_{QNl8E?I<nrPwIY)zJJ1MvMq(qNx4wD5+Oe?Ikf=a-#H
z!?EDO@3f||b5Ko9Y#U!vH(}(9H%!=ned>#I_s%6cj?Z+Q<vY$!YdgW*)mtJRKfWB2
z&Klra8*Zef(OS3(pE1<&hPtGoAtZYMSG&e&>&J&~9EuHocr@Pht+_t5Zx&L`(GxM_
zjZ^S&Ak;EzGKcp4zMwcl&RR>N&hg7J`=_n9T7TLWcilS57j77r&P$2HlDW!Nq5YAK
zQF44sbYo=4H=31?Xu{GkFCz>^p#SO%#x900zSBLUs{*4wsaq9no6{IG7|D#LhS$`@
z1_6oI)Xiv`c};Utvkk;Z>&JG6cSgx~_RP@LJY5~@092Y@J40{gX&94ckfGKzqg}yk
zS45e+t3F$Id)>5lOHS`mCksE=1^qG=MtsqIk;~%^Gp1_ZRGoy&Y%_1FgRGU6xb4!&
z)^9Xrk7R_!27Q8dD+!$?#T@YXq_%2C+rVoZlG^n%+ReOn^F-IAbE@fH*OW7<Just%
z#|y_3Cr&0#ola`cKpQecWs7y(s*aZ59YWVCQ%zrQ{c`Ixeifmn;XMcp)af4wLQ-)&
z>^CeQ>_E*0u|Fs%i8g)k3W(ldj#4lv0EgUK6}R20jlRYg)y)*G=Zn@Si#AN0;ET3G
zQ*8I#ycJCtaZt+V7IsWUSXQErt(e#3c8pAFD`&Lmo;;~-goOa(@^bj)s6FaTYAR+l
z>v+w&q^2I8j?kt^Yjg{&ngnGNaS@%k0XW3lZ}EwiD;K~(yCOQg9{&-PvS-2}6c`?q
z2#0{dkoT%Opn!|kT<*Xaxm@@o?}f6QlL369<P<sZiOLTqh3FQjE<1pq8c=aHQcXZX
z&Xme3u5eVsjtvSj&1uAIaf}gD7&F#_+M7`a(lum_G&o$<VlUwdA!K89bPXJdyWmKa
za~Kf^MVRbPK^9pKSswY!8%_#;%*h%!dN8?u7zYEi)PS*Wd~X8kxA9pV;TTn<V3ogx
zHs`?7NLQ>S*`K11N<<Ox`B;XEq4Q3B*oV(D8Ga+k{vD(WM%F#xcKXpJrkm|`JBQu1
zCiZJo9$yL~#TDZV?8hi%LLP<{GRy_#P+#hRBE4{$;>T-bw?JL+`hDWR2U2I9PJF`#
zH;K+Z2F^1r2KX{jxZv~+_4<9Njzy;vM8yM&7VE-SuIw}v{4@M~kHAA{Mfr@O8aCfW
zc*U%?bVggrYb(*BGmRYyAA$E^ddt}B;n!jH4Mw-b3nqp!nu^{%ZTa!5=#f)70Kf(t
z?B2%0$lwP>0DoAD;kM9r!_8aJ%N_GN*t08ZK3#ij?N94M2O=Ht?CDgrWBe@Il4XRc
z1h!;dDeM3ybHqDd4wsSzrRZw#{mz+!CcdC)qISxdC}>I+><hL7YxGR%{ev@>M&8mm
zp_&{_SQ?WSd+_L-t}wcS*VV*fL);4Or;TG<!&~3ko}dcw*5E>`KJCC56L$f4fCRe$
zsG!oEn-era7CBgdBtV<FPvP^d`@7P#0U4l{;YV`toc{&*$#MWy87GDNt5hq`LpuWU
zfFgjNm1F=Aj)JwTfE`A92b5;y0%~{`qxO;knxjR?5eWpI$HKo&SOh%6lJKGw+V6&!
zoh~Q*6Qv1mZ&C^%%tLq!iC06@7Od{z+iAEPHv&->Kf^rO<0$PW;)b+C0NFBFoIpAR
zZR*vccy}%+QnT5IOp)B_EKX#L*q(ltg~u4_7X<7dp{y3Ra34bag2bHB5<K*sQi}nv
zjwlJQ>9+hs!7o>QzG7OrCuo00P7Q!%Q){Pdj`CC$XlBikBQe_(4N=elPZ0|y6;oyR
zN0XM$;8B>Ms=`QMUPkHV!8U}TnS<?kW&uQs)Nl;pLKum)9fXO#fS4j&=pg|bH~a4>
zp-9|e5T+{VML9I|!mH#Vc<(7F(;<9kCdl{U{{{&<P}0$Vgi>!m1*LPy-|rvl1KqkC
z)K(Q_`~0vuu;Q}?dOv#CeA3<LgQv8rgMFzWI{|g#K@;?8hACJRW2b^#B*EAwypI?f
z=yi(&jdl+#aDf(w%HiqnWo{F=_u?QacV6mehI-w*+5d#XFfN4eZ4kh`lqAVN5t`o<
z+CLCw^Ky6^5Zr(5=+&dKjg!**#}m#Ayvdaq7)%7-n5N#GrHrZEz0b^jHtohq(+}YM
zY}#k%KD$Rx)6SdKCP`2?UqncZ!NO}RudbZcln6>IXuMApltePGCM3#hC09%4ONbTa
zv$o1drEMfxH*X@$1=s7w>*mckYDq^6aI`QTwc=<I0ry(x!{_IVakM0r`)ADRv6PT#
z9@D5U4a$CWTv9@sVg)m{4ZLl`JOPo(Q(rjlIdCv>`rOQE4}aPt#s-J~3+9FRrW1W|
z>O4WbEIFPDcT4&uP^w$<I(qquK93R8`R&=6uwlZ-n|9nMK}(&c&SdAn(&;R3+CDXy
zIC*NCI-OfSH+^0uGfRT{d0mcdOJ`M@kSnBqTE3E1q??4YDY@!#)Q}dH5k+%Fg|pj9
z18Im1UFXKRc>;oQ_h-GgdvWmos^8W9rtUFHeN<gfRz^-;KR<qco`7K7g+G(6Q>(tN
z`?4-^?9|M$^Zc>%iPu~+uXXdUbtm?A^E-PUqq6g_ktVV*Ci_%#OEXVEaKin|-p`>5
x2;SfPyPdz;iGv9S1_Y84y@NBom-*hyk5TOLmJ-tZXeXfu<EHv5EL>QV{|gax*z5oR

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_838410.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_838410.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8bba2a94fc106b7959445812b24c62064b3602db
GIT binary patch
literal 10256
zcmcgSTWlLwb~AjFGkjBT*|JPYHf>q5Y{~CO6w7uT%TDA+9LsW;5r>kf2Pq9n+16er
zOpzdDc2QI5wxZMBhTbj^Iu;OS5g^({fy#>l>$V@|gu+UgriFm@kN%kTq96Tf&z<2=
zv_jiS`na&}+{ZcR-h1x3=SBas(P$u`{QKLVj=Z;tApU?maxoSfk5`lgF-NcjOO6x$
z(wFQf#lB)f*{>oAFF7jGkx`|up3oEQ7FOw1jnYrf;2x`b%DDO|<C>?8Ys-%h8Cc!B
z>idO-`?U(ZOG}x3=vf0xu?m*{nTj>Cih0w0I4>?w#h?JgT)?ofmhXU}XZ7D3gZiEr
z)DKw0{Jqy$$FQ=t^^*^4`}HEf91`zJYp;HoVC}ykS;u^Z%-g3)4BPmBEiXelwsKuA
zit<6RTiGfvF<M=^bE(Z%dyQ<3*HnJ?`-~1LYk=gChOK>9-EU^=%Hy*2PZ{6zlyPZ)
zW%mxRVDr1Gehcel8{Q@Rt#C)y;+bu?NLSMuKIHi|9n=E-V(%*_&blw2=|AZ{_eAgf
z6TP#7_TsC(XD+$V3iRm<uUvk$fZ{3T9;S$2(qq3C>yHo#ZLy3h<ktF^CFd3Q3lNd&
z=fEn9kToTcs&#5|3#pO)eqpsp?Q>u?$Wer?Lsh75MokcrdQ^?-XMjdz6WWBT#IemG
zIFVFPE!sQ-x(`(qaU0NPz-gG#5X1}sMYf0(pa)}^P9xfa?3hl;elV{#6qa1yyGUm%
zYDA9jgjYO=i04E#sNy@}Rmf)$@tU5yzao6388suDc)AuupsipVi1!pMF{Hrqj&yi+
z)PzUzcwtnJNAXJHYTFPgL9FAkDoha>L~Q2<Z0ZT@?MR7QHb9tU2(%H`EYCz-NcAl|
zi#+=+JgYnt*-^rqGL{e7kz+^^D&A;0`!}zaxgFUVGRvSWSwgv-L~Bt6s>J({vE^?M
zksz;M0r_f0tv}?xZ<3Mb$S$<2c#r?j9EFv&WB7fvm2jYpy++$m+mkoVYUZ`FU5T`#
zU6R~Hc0Y#>iFQl!Sd>#y(y%ms>*kBnCaql}qh!h29nV?O^~{|spM$;Qnb@il?6TT~
zRmqYP*(34@G!iSm%*bBUf%ZPhiy1x4>SsVBM><g_Qi(cFiRCWRg?5&#Ws@a${fpXB
zm%P>tc#)BvaAyUnMbfLsquUbXPx@5^+8NpR12y9QAE*%zp#4ZK%GyD60BOY5A*4Y2
zpX33e<@b&bJSlO=D9=O=qk|i;4m}Ag^6&_%WR+vv34$xNSY>=AbQtYJN9GN(Jd?z&
zQae$(&Skk(4#P#A=in(3E>ci2H+{i1Y*{&MjA2C0hHg!Ihh==1LQqXG!7)J{2#t8T
zHLP^jus(8;91a0ow4ex$3x-K9Fw8L%ZXYYCJgje8P)_*#f`;K3|FBn3&v>~&P|yyI
z2bj>_J%U;qRza5)lx!d*sDq&Z=M@Z0C@|skxEYpp9TmuKfqYRQPY9ZzhZ*+<Ieb8Y
zJSULn1@f$*4~94&>vb~|>&>xZbFif8FOGWFVLg7qT%aJ4cMoqI@C&8_gm?e|c(M<4
zhq*v_GU$VO%o+}!0KviAAvo*=aQLkW%1Pjg8Y=gUp!bI-+_(w*kehzNA~$`0w@6UX
zi66{PYRJb0Lj@dK8pi7Z1(9aq1I!K#4FzFT`pSK{xiKJfQ!vOB-D7Ys?#U1r6f}d<
zmntwo95hI0726c!@q{PB<8UpUKmx7FKoH|&k$^AB2<kzRIyopPr@bDy#}VI9NYLK!
z`i4hBK|wj_9ui28pcOX<+%Gizf>xw~N2CU9*dy*nl&j!T;M|t~N%_xL+iwK8vEU@*
z@wSgJo-rmg67cV0hQ0n!dyw<AhrAP$?a*uY`9q!V2_^*RY@590h9NfyRw&?idjcR{
z2lgK5?AQ%6f>8o;k9j%2cbvNfTf|o#bivg}i9gj7l=1ei_^xE%lA$4b;%nM;`&|57
zvN1>3M^AojvCU~`wMjC0Bxl(kJ+raDQsqqf_^S4-%CTa$Wh+~Fb4&E46<cj`fVa7#
zXTP>rCT^t;^HpsbI%hu`?Oma(l6zD2eBCadZi}8=F<P>ACvSA7X`b$ko?JEB5(B)k
z@s}@ta^~)tG?S^%H67!P$D*fJe!vVq%bEC@1e2`K(Jio=wKD1At<LDnD@IeI<s)md
zCs{Syo;t(Zc4ah~&~N%OH$FEny7=8^dD~gu*o&7nCH8&Pn7owSHhVn9@b+!#gS@RX
zGrhq6wtHdt^S2+?@cS?DwhO%RB0$@!lZR65r`@SxzOF6Pz}LON+g@1Q_ps@!SNk4r
zdvH8^ndMKgyp4^X#ha;3^?cfxI?dO#rr+Xgj`G%{i<-sIKlLr%cwo+6c$0tOP2T!u
z^yNo3$K3YW?aAJBYqoCx-*JCG^Xr)<+snXSU`oeN2j_-ohm%aIKBMIu_vb1PEE^BT
z$d&4vWG`R6eSXhp2k#xs^exc2ohSL~lUd!#m^z_esi;l*_=;^Y!%Ag+awgsMD>A)}
zZ`hM@^9?<GWzXXDL-wmnmmdy4csqM_gg-sPSB}IejMbl3eafV@{HEQRWBjIWzM^~a
z)WgoN`Yt@&|KOGEYb@Wx@)c~%unGsX&ep^<_!>^fPbW^LDkapr4GYR8`bdmiwNwCz
zA*Pl=x|8aUn3N+qe8-fo;j8!Xjy;*z7J7c$xN!P&_u?(S>s8+IYWB+YuikKH8E^It
zFMnky>kll^lQHs<)jn4>Ta~O!@5?m(hRkfccYM*gWIY8NC`hp(U71n+ipgm2H7qKZ
zEIl#xBa`K}FYW{R?)Y&aro?vwTTU{w=9qfL?pWUqZ*NIEK}=%WRdZ#sBK~%&g*R=F
zDOYv&pK^24v(vzT`(M1p>zZTKs?L;XO;z!>?V_yky3P+Y`F6r|D8HM~JEGkyCVOI>
zH*Njpg-@>Dy_%lNwC0+R^QPm`)6bfzNRsg}3?er`GOHvJ=B<q&!`5BAaaTsWp!yB7
zpyhYJuy~N)-75((W&5xr!6x?eR9$koAfKDtc&aVhv#K>E8vhJ^tux%##dQfdf6DQD
zUCSfr8{@{r5S)wsy>91Y&=|y86juZo-nAE?<x*|59@ucKi6&Vg7_fB+hCp)#C8KeJ
z;U<G?TL6T^rg#k-oi)*-E4fBIx)oPWs7|?*g4Pr85BY{c7ms;w38rw+>-L0M1`G`|
zIpV1TD7oNpOpM82f<|df4pAEk9*`2^AvMw<Ez%)9G9U`k$cRkHj4a5CY&fpLp4>cn
zzd#lHCoaYLZyygENAMu926a_&kXt0U&A4j7)fQY~Q@`ObToWE^##IZhw&7|!u3Wg<
zfvcUkYQ@zqT(#k<jA0Jq4L-%Xa2H`ts43`r);kqu{2^>`MLQAP!+Bu-D*OdcK?Qn$
z3!%2H==8CU7z4LnQE0B{tcioARaLTKMOT?L!PrVgW8t5r>OX3XY7KW8uSwn%H!Ns4
zZz#<9J@`uHf(1gnn_9T-IRX)**lXKR<lIdJ<|7KED4$Caqwex^VniNMMU;SxrD{XL
z5-_x$iNO*<igCUADe!6*W2|Rn@SgD9Zzzy0Rjo(7EQxm*(Eu#O85>JkSS`q;21g;R
zW`+V>9nw%Zvw+)rq#K3r#sZQ|B9-h(mp?75lp__OsQ+J}q7PxGSuCR_xwZZ+nJpLF
zD&Qpcb!fT87H<Tf7xwvV7(kOVWGu;QWDZ0O$WWdOz@>sDMyQe<mWxlyOO<$^aGRy_
zT-ZFT#dpnWu@pg0r1(p~Xt`LXYz}i?S3Ch7sw?t@L{!=JL<wj0GENV1{jWhrjEIur
zG|*>8h-`t3oQWF6+G#_%U+9lweYK&KoMFp`Dd@_akC>1NWEI}9*eYbiU=P~&lu`z)
zFlz=lX%;eO8)sR=4CsW21#93LcvsKaPZ^%d`x$kX*=u14(K2u3dpZI$KlwRC=kznR
z5RG&g6Or#JB?{8Xo{0nR?0e(r!43i5kn$oS$F>}P@oWDD<r0LjO4bK)#+cVT2@MWE
zE$$7d?kPAdaDs;QPWwDwF$5MZs>>#jI3^uoCcT1|^NI})3p~WN%uPY#y*bJFA*h3}
z$TK3SJ>$&8Bt*4=FbwL${@_&D>xD2%j91lQH}>w~#_*~*11=cAAcuUz;XpVjsHT11
z8-fZz4hY%;n#;<u7#JHbfxNPA1qF>5!vWS699=^Vdr^zAo1nr`n_vJ!ZYlN>^w2Ie
zjSvKld0BZz=?RPr<g}oe?ts5NK`SiuEn_H|LE{tFk9!{=Z^B;?+omW1rtY>fuKckY
zTrr&<DvG|nKfXWF5kHien!7Q3BRMrY6P*%gZ|mdwL`Q;2wB&R((e71nx?J%$qNi4Y
z2A<lN+>@M2wC8kNB|2U4u0&r-73<1T%@8h7+oL_0e3{`@qczbJzm|NFr#C}rLR(^8
ziLUrj@W^QE?cR8AvNBbZ?#|I|%k(~;-j|tL*qWn{0wiU=eK>wNF`c}XZp=}w%Ty;%
zb%KAd$We!*J&&xFb9J+IKfC<#wL90+*7W7i-1poIeYsu7dDrp9rr)(aXv_9p$h~-x
zcU{bFx|DtGO7`ltoOK}j@~WkF*|L?lY)y5f7%|#=<fxfDJ9{=|{iNz{RoZ&DHr@Bx
zm3vn*efRnoI_|l%TaNz2<=<U<a4mbafB7oIUuBjYgVA$en;nV1r2b>`9dnxGt9PWk
ze{XIB-<q!YkV)E;7gN?dmy<Q%0n^T9x(&j>9KCy)?&9gLFT7ulem<I`yCHg^jR|G^
zG&GE+52j|FiSC3mHXXm3w8z~s#fr)NAqm&g2^Z6u(8foTdwJ95R0nTtg2|?qwC(Qc
zPmbL^_C@oTJ3rr<a~@lEp5mRSa?Y1xMsX9&oyvsoE8UhnMOfPNCZb~N+$*!M<Q&b>
zbHM)DoryDvogYmlV0Vqnv=erkqnkz6&r%6jg8Ha0VdANVWvY><;0~N{X;gKxIpxSw
z%~@5m<QJKq5Z~asgXqDoom{YAA$mwFpjAZ=NuDYB4uIT(f1?gzNU@BT(kP5!KbIwO
z77uJv(Q1w2V1GjaKMZ?j8w&hdRiGcygs>(O3sTG47Oc(**oPK@cErDVAg!bsBf52H
zmMnn=-xm8Zpc}<3tC)XPiPi&K?V?X1uLO2RUQ;8lAe{#?tS~dA5H)zKiulP%(BkB1
z@fU`53P{PS=QTyk5B~pmfKoto0Cozga1LDNp=?RTEHV7gfTzp?x54MrjACuHp~$BJ
z{jNPPsp(Mw5p}hs&haHdKrw<pdTs(wPT@+_z*63^V_%65R*R`f!OD3jy-WzZ_Fit>
z%S=O!Nl;u2V{eg3NP)yw+{FQwpbPsYnG{GLsQ;0$ACh6Cf_gk~!^;KnjhE<CNt03%
ziWo(39|FYB;V+0oz$lTY3A%QfYJivUPEWKuIt4HP_K)H}N_HowQXO}~$wTv(Kf8YK
z`r@(W6R-0pUSBd_jlT2<r!4;bb$Hm8%^yvr8j~U3(gX<rYh_~Uuc~9+IKv=f^A*i$
zJMU<Xom^?&@yWHj*Z%f;?4=L;AXM+ZqfU``^ofD5=&j$V30rMmO_(ZSHzvojv6(kE
zr+k^dtg$&~+z%-k+A6)^)R|027C+=JNHbZglU*rWsuBJ!rI<8%*8|_`JI8s;j`UFG
zLWap)Sa2*fE_DCex!}mW&bJ-o&Bq|IMcHp3iXZy%k*umpeB_?ug9Nq|pYore1OK^%
zjFkTTQGAdvStvL_9a6BRKdO~^*7M5Zvn>5Vq#QjE_wPkdUGk%^8Y$<CF7p8FBch3D
zBf5w_R19Z8!AN1W@_r%AiWpcmGWf^{g(whn&3W!MI2$C>AyjuMB+13j3Z&=@nOvL%
z7O0RHlEWSbg8B}ZT9kP)yUzN#4**&;*kZuyq9s4ViAP02{!84#AuRV2R04KW+=GI4
z&@DL>^q?EN6z<6YObDb~Fcy-cfpBOt3@Ki4i^AifU=Z)BMB2AV;_i?(7T`FqM|@wM
zZU~+K24H^;f5BT&MTu3b19EaY<83NVfu$oMv9<4uiZ3^PzG+E!Jlg$?nU=ko?!_HT
zE$4WZGkP+%Khc|N{1Z)7v_Yn`VnMrD|8OSf=#QQQS=Lu3B6+pStcjk^TL{`7JueCz
zFcrU3QJa9~z-{;p;Ez)LtP$WSav$RXyTn+H!~wx9ecQ(2$Bi(gWdxnv;;`}(l%u|o
zpa(B67y?I;6Vn`m=7gAr;oKNP$Am+HP}uJk??%vE^7@02VOL^St3%<*aj$f9SWk#d
z6DWz@?%}{Vdyf!LATe5ZWFo+Z$Gyk6c>o4=LIlr)MCX+xN&bPL|CKQQ8&SVXYTvJY
zr#4?r>}*|W-~CO^DUxgjZZtYSq3_aptJt;4UAx$I$lVIDTS?S!{`kn9Bl#+^TV0s_
zqe$wpl2Fijg*bCT0r`;VsrS#lb1t=aLHY1PmKo%2p6ujQHuBbz>g^SkwJ^IU6MXn$
z_DzPj4Q2zASrl1Py|q63Y}~yIif7<HkMgr|xrckQ?l*ZG0}0XWkI<4Tk~ixpMO2%2
z5DIIw^8JQ)8j@AN2rPP+$ljF#Yio&3o4={4BQ<#&VXv5Loo&tAanB+5DsZn-?p5Jl
zH33=Ef%w25F`mdnT%9BHD(HW6$Vs*&F3%0j4&(`Fraj_kp=+_?cl8hIABO)0{Ugd=
zA6&lf<FEU&-9G;C=wl3+f0?wC)hpm~_RjX^mC!CY!g)2c^BMx&;v?}Rc`feg2#Y<h
j$1MY)q23>OXW%gfy~hV?N&7cP2(vS1YI=tf<?X)#iI)fe

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_886215.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_886215.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5aa32f03d558509424bb9f9535fcb271c3b0c38e
GIT binary patch
literal 11420
zcmc&aX>1!;dNaJq8A>8`-=u6EjCEMDWLs;=wj9fsY$r;T*plUPDGnu52Pw@^R;&zB
zdYd++H(gO}T2a{mrWYwp#|9#|3s?abjkYLI@AgMIqLC0&7cj8?<A2(9P_zY#_IqzQ
z6fIL$5)|lz_~sqo_r2?T-}Us*Mx%j%^xvM(ul#*ALHrI?<V2+k&silwED;RBkdwra
z^d*N#Tvtpfhg2ltBF8Zu8CCi+3YTh}ez6VJ809wYs%_fU+q7%4w~rba?FXv6sey;I
z3N*jGEc4JYI!4bJ80u3MLo>#EId@^DC~b?8%jAAf4E^`U$ol~pdYBdc@;b)ULwdZH
z0%={Dxl2DrFs5IS_sn+{Qv3hUDURxx{LRx!pBlv!xQOwR%o$5%rf{3~qHWrXw`nhN
z8G%zuKTr+jFczll6;LXs`~&q+?kk`ww!yC4rX7u~W2%5^9%E&yKOl!pa89Q5>dn_k
zTg@}H;PWDV?Ccw__u1b*J=AMI_d@N(zCKa=_M2x<57_%e{pq*uz3=v(xA!?ScTflP
z5Qje>)}R~hBhdgTji)$3s!2IR-c#I7LHJ8{fK{d;OEVx<ne?PGpUdaV{N^v)0XB~>
zNW+%%WqkR(njriYd<kDM4>R^x@|AoUZmaTX<*@)Rm#^aUQTsedr8I?VXf5HZ=V9&h
z0PMG5I#7c)M9s=uB&>{Cp&i?j7;<w3m`)9E<qObgJL08RgYkCprF`Lc!Yh>5fbn+o
zHGD2wg};{H#pmHt9lx75;Zi+M@U<YDi9b~^#HgYaX3wk9D11F?MeV6p4c;N>$5b15
zQi9mTV^nBgcrC`R+k&lo0o%qa`K=IUj7??5reDB*jaO}hZOn?D^8)ssjD63dh4_5F
zU{v8tpJFzRbWbhsu)oolD}yp*2IXwLY~l;~A~Y8nTmBv=E+^r9n)u@PNRB37-h0yo
z;<)Av`dRc7-@rFBntNJVEBRY?fVTlWnE}6d2l&_0x3+Z$$USMuHhymwJ^^lIB#zKS
zNk0#A!@rl`JDxA^<>vR*Cn1l+x8jp;LpRvJk8jMFUlv`)xA6Pqy`MJ%MkDN9>TGz4
z&rxdwZ<AXyc^hNcJ`z>L50n7yKTra6@Cshfx4(E>W!~lue8-D-PVVvV--^TMB7WKm
z&*!05d=>}zB1SpUKoD%Ed@kBN6}iOk=NtJ0_Y5-6k;Ju3xt6I-QYhIlY}9!ch9+#J
zsB*mL=AI!v@(c-6Xi+o1Ytyc=6gpv3h^i?EHzBIMzAG;F8M<iC&>ggqEF2nPGl~k|
zq-dCCy<@Cn%I;=Fm6LH_6_rzNkEn654$qiNRL{FuFDGh8C%q2ezBW-UHLIY?0KQjL
zGG3pk=6qh(B^n$)@08nVcQB0Yps04(r+uub9+5sy{4sD&$E1tHWj&@X6*(X4W?Xj1
zl&F`B6Y1heM$waQb#B5sJz{POEk%E9YlBD3NkK@Xj%}%XMDm<So)<~b@?)%bcA9eo
zAkykA+Bp`a5y8TBBv_;oMddW?ml`rV%*``9Wk*GrkX-bLd2-S1v15Xw4u8-_Q=@K{
z^QCZTsTqw26fn)y2adrzI?6$-^p)!qq87KqZb^j^k6f65lS4boi5k4`oJei%I42s?
zTh56}htnyNfPlCJmO(m1)rj5QE@~tU7O}BNj-*J#c1wf7W^3?aa+r^}g8*jvf$6{A
zY?<@26Wp}J>1w&+a85XUSG=Ak$C%6GYvEXDi_bMR-2$~1x5w9RpK|!7W+$7cui2r=
z4lLvIdhAXwFwVh)``cPOphq-HK=uh2>v2u8Z^G=*iE%%HvkVa5RuGhNp()f9>3?LX
z4!r)D&RIAYIv24f=!!t^<2>_{c2OH4BVCEShQR5q^<=Rn+9?z_##IH$TywmrPROkb
zoJyL@B7=gtF3|TlzbJeyYK=~;oE7Sh3N=R)`8|QNNxC?)FIpj#Hwkoepf_pEi|6kW
zjJsmAK(_~apBT;IVZmtq?AYzow@$|#D;0^|hXv!|z=`A!=y{S;5S|H*2TmqmDxiVJ
zK5;|~B4a{PU940nYFoLmI`9vzs~3ch-iLajqhBcM7mRO7BhP&@6Wtw|6N>9&t+3`5
zy-?J-dUEafZ>?)5g|4#?uL)fjg`$gsaWHV=iMb+L94q*ICRQw1TUQ1J>*2K)!O|Ze
zxD+4$@%o4}KI{|*nE2RLVc@D@xhk0F0)0tSS!6Ei`@BCoCsenrbPCm7YdJ#I`FQ`u
z_~7Mr`;X&;KNk8OafTK8S)qy*OkCj1Qv<!w5NZgYjW)*fTYkwtn7=>&$Z!l!5?0sx
z@yOEH;#kBHtys|t)&q&6gI^mvgCvZ!ZfegQ%qmpx3u@5mpA4N0pNJO4xJUH9Ao)1g
zv@jQ%3tx?%Sg}6JZ4as*oAQ^67mFk12~#a#q&UQo$lDcEKglbI)c?X79f;NoWv|8h
zg|g-qt5CX6$ZKC!3b}`ZswAC<M)>&H(wW6G3A#F3C(sSC4uReav(ix?u?ts2SHq5o
z>8HG)D-SB4=yJl1(PF{e5bG4o?Sig7s7XRw7mSc^gAwwZS8Rg$kf1vh(rlCxIX~K{
zAaV=BlR{3-XK&peyfqk`S!qnv9uabmARfryrU&uDV6^yiQ|vfCGNG_lFt)CoUei8Q
z{nqhND;#}OXn#{Mz6rcQ=l?}d*cU!2&=rvxfwn|1#0LJhHFiO$?N}v++D?J`QQ&w|
zn-jMFgnz6vEa*bIa8V>b+Wxh!;VIOOA!B$n;*6=j)-^qct4KUUM%lBYkg>?Hw5hVm
z*=I=6u~=a#L<170oDbvzC&}132RqF@vjE7m0Aw~L+XNrB8D%Y~K_P0LUeBm|3<TYT
z>zcC|8s$_01<7B7LZ-h4Ha-cqgA(j!HLu~dybkOL15fcZZ{%~p|H<P`yct=($lif+
z$`(Q%0z)D@0DQZYE=L;PrcCK;b+#2^O#<2&i6~n!TLm8$f<**tL75e0H7MJKvfU`F
zMOhun>QM&c5v&bmuc2%Y${JDj;$E<OQCk*O#-UBwMsl-nK%ZEd5~hr6X4c{HAr*xM
zaZ0!j1I)Yd<1Rvmg{#^eu8kB%)zSHt&ZN0KGMJfJqeqfvOSCy@&JXuTNa#vd?@9fY
zS(BAj(Z-cxq2{1a*}2*;R385KQd-?Zvi(4uJ%zG9l$}8t(oJ|>PNbOSR0supus1+w
zf2jY^utf00xZIoZ^&#fMX&fN8CUlTo^^Tax8rYIBrs53o6Ot!)7+1Fi6{;E7iXE`G
zpY=|dub#E?2amfG=BvjgvIRPa;goLZ{c6}t!^^vcdi|Ok242mO$b@GU*fG}NUDTd|
zaHt&ifzwcAqrfY(wK^5=DG&{o3IS~%JL{vkg;S%GB?*-K5TD_c&G8NCLxxdBb`FBp
z92s}>dru|127YZ&9|UYh{ejM}^O<BAUWbDYNJMF|kRr0Vfs7{Y>SgcOru)eq@U!=C
z;%j%n&)&a@uNX)7bxV@ZjL}XUhcht2$z^eNH&^K)8O=5@n<FW|(@4tiFj97y^hoI3
z5zpLB%^5-z+P4Xt?mSDuI<YpJw_b3$$FBG++!e>P%QEHWK*l<+SQ`2)ZV&wV+HH3f
zEDG<78pd_i?Q}U)(L%ga=o%s7&ym0XSBgySl`YyBB6-kEh;d{;KEvZr3qj~kr4TSJ
zgQHtAJdPK@WkNJY6|fl9`3zlxrUSZGBiZ6Cnwd>0s?PNe^lWM&4&4<?ARy@!UDu>z
zYJ_ndp5L>LcH!EZyC%KhC~}9PAOT+o5?m)_{}CWQ)7++RQL&zwZ{@tu@_NE@{2#CW
z)BC@EKmPVW{N17WCAaYIc;e)QV3~+d&BWRFg(+UB_DgyMty!`<C~1?`;JP}mq&(c#
z{VdXnq6*FdJXm~0q8fY<-!;~bFp<Us2MK$t;QP9#Y}B@@2^%7!qR%dpPLUb|2iGnw
zCSzw1TckDc(WBB1m2SH)tOwvZ^!pVs#eW8fCltMKAavkk*V5GD)H<~*I&*vO*4!^^
zA2i)>TCYD6R~?B{N0Mov@x}3V$`V&u;*=#xnHIW2U7vQ`>|X9(ry61>zBqg5?5}#i
zI``$d^~Te2)#*5OI!Wa%910!!wDxAxa??6hAM5zy(49lSs{N|z%ck``C*!J<aq47h
z64#FhdIB>^+K4RP>%D<vVB%7Aa3<6d?g{-UVqT}p<Eo?a%A*O$sq)nLk&c^(mJdCm
zx?`>2`*hy%#9xEibjMZQ0?y-9_fws5feKN`W(c2%T5s3is$a1_Xt>|-NOvgE^VIAQ
z^gUHsqk9BZb5f@dwgw$we-=U!o1&(l0_M`i#fuTgUtanijTJRF&n%z$`Po?OdPQSU
zgUwjSBVEagb>-a$m+xO*YfW_YCd(~1JC{3uekf-8<VaAxK!@mX|3|qi<VwebuKQhU
z<lh}hO)04}eQVOIH5)|)Z48{k+$fTB&df`QYyxb*d<{9aT{5pebfT1&kl5hlkfu|}
zZJ_ChaYSKD@}=#C@ho~+)(C!NEoHGwu%=b`m0%c?*wn=#FHW*^h;hWjTN2h!B-Y1d
zTCXAMDDt!=F(jkP2o$RT3R(SI(iSL?u@HU-tANqW!}xv;ucinHNusir*NmsN<|Y{?
zEu{fky90#Qm$oa%&6_mj5;zKYbQmd%4%-|F%}3td@k|#aMTk*?CQEUEU&rfqIJ+!i
zLYX>P3Y#-7ljphlMJEEGWEd-h7my>gCBg0^M`TO7r@x!xAiv&cl{*>W2u3HLF9hei
zVD}A-(obc;=;RqfKT!75;7;kJ&@8xC5|5xS@Fh>9CzDaEYIvG4;J_?!^E`y6{nSSm
z2qaUyUdEMHGpc|=iH{CLpJs>MtC8ou`IYB}IpWp#=2h5QUZ4FI04JnQ7rB$8N>HB=
z!X1DK%$KIj0H4dld0ETUEa$U~xGZf=$8m^vz@}i4EiP&&T&`(QG%R+S{|Ay}OZ*XZ
zO75{41G4DQSq5c@(O47+7PYKP(qSscl;b@J8l%{*mYbP%x#l6b3vo^lBkE^8=@utw
zsA+Z-5y0U;H7LS;ZIbRo+{d~gvl&@0DkHyARCt}D!tE4Qb9jU~G=dsO5JeS=Hj0RZ
zeNI$*XMG~+hH&((&+Zn<aSq9XwC+O%N&6XJa5dRK1E@v#ajPH;0|e4#9ifh&9tb;b
zbj4Ne@zVB$sy*0+1iLDv`skg7%c08&U3s7<Y0O!;5V~;v1Sld!k}`(%p~I2>b*d_^
zs)|!pPXIw5(uZrpBazdK-srW2t`(4g{Ql7XFht3M`x8_h1U6o3d15q$kB2TrjtO)X
zg!AaUU`Mzk)D57t2?rBv5_BbWP`OCIMidFEJaGIe^!0`MBBsc|a!K@^+xA=bmA4YL
z2ZfS@3A*ze`iMXuStHll67&f~)3k6Zbn4@GmWCFG60{}I`_z!TuqU(!=2{aam+S8p
zeo=m>e6|0pi(g)RWH^zEenGGGXLiuKd8VNHv8gCL^VcQ89v~KWebN(|iQ1O=Sbyx=
zolC2&ckJ<sE}^J<&AR6Jb*)fzN}x}NdN-7Wx$H@CMNoO8CpZ(fhJ3-3H|PyLkyE)r
z6Gn4tQkNGmC+J<$3X$>AvDCfTouI6N<4>p@WG;l+NLzxcimIc&IJGCP+9TOse+<XS
z1|V~$)e%&XLPA&X`Chmx-%;twswZ{106U$qvQmN5s0N1+L?T>m4X@m)wlahz8h=Xy
z<)X<DlUY<Eh{-H2DL8SmnAG~xs*X>)WFP`}!HhuA!`xt82EQQt^<Z=37i8QHYf8N&
z>*vv{p9Z}&@md)oCGcuN;E`DsWm?T;Q*nH{*N>dyY>GAwu>-yWlxWJ$$=p7eRhE~;
zw4l`@_Z9mT3j79X;0@WRWb8hYLtBzeO>(V}IF)1~Vh1)Y7_r1;S!lD-l88hyQ4*0?
zP-zrp*sRB*?LDZ9de?i?4i95@aFRepj+i9$C`st0nOF*|y^oMI@aP3nj^%M>&OYMy
zaqOR<3b+vNQJ-j-v(I|qkz>NeaL8QB5POo)qoi&eU1R?oAXebV{WoMUiM(PEb|y25
zNnbw$qD_<3=fX`b3mkh{#yy2AdkG|!Ir7$Lv$yAO&97R&YWT9@k@5Aw2^24H``I80
zj+?{%i-i&EA{A68OG-bnM*5@H<#!{tWjdx7N}5*kg<=Rp-vEIS^no}~6FJ2jIwTI>
z2)z+G22t&AXq!OWVs#0+RgwyaLDbeHsLF4sdI6jUO@e9x@o3Cn7z_=DXP4ezd_Q5_
z1<wYiqDawVRdlytstcS+QiTiMq3%x$Z&of>CaC(jsvgS?XQpCCZ#h_6d<zBm?>W-1
ze6>f5V!9Aa$^1`+Oz8tuP`am-%^1IG2YPUCz85`p#{bZ$c_qk*l++rAdH6MctzQR5
z72I?wA=!f?&&s<ggAPn8HE(c}eu}4n<2C2mivS9*wX=)^tOU%!h)v-Q*s%GQC{jKb
zyfHc*oXg&7Q)9Nr&$o;R^D|bg*q?;k(FEw&U6mr}VN^YZvOdTp4G!;sBX&uz(<64I
z+3nL_V0w|Xi^kMb9H{nb(DKOYn4R=-9GX=ItEUuvfiy8M%etIk3ZREQu8my=*x$g9
zy9OCJwx$Aj?0LcQ+yBeL2bK3LAL)*O)3<$3-M*EcwbvfiofA}`qk;$EsmS^*O%yhR
zds(=uU8{IFpC}j#oCA%fFADoN)T&%f;N(UgLFWg~V}^s6JlbJ+RJZ`2X9QSY>?f!p
zUlJY;D2ut$nwux#oqQG^CPbZFVv+M9D#zVEQ4enroDW0_i=+Ia=5_og!44t_onzML
z_04)*si?vLwgg2bk|fB_mre)?1H3sRC2gyH%sa{4AtaTGqx8D2DK9fS={n5*4FH3-
zAUOE9H)2CclH~6Q`d<m-zY!H18bYD_u<Ux-hN7EnhUHp!-KKBR8zxjU%e8z|E0Al2
zs8&Q&RNd@a?%F6uwGyJra&vfj_z$H}d#)rDv_$Wif>4_SCq6uP{amzdg?-o-AG#!%
zhvV+?WJTq-N>W|@L}mIv>fg7jcz7&+X;?5{j*m~gOh0@7Mm|L;0$O-4Q<wrpA68$l
zjuijG`-t41B(>7Ml#o3nY)tFE2lRc|7+f{W)qGqnkgJ8bT0}H9f6;ZP>kq}Kinjx0
z2R2l=dw)4;j27OmxK*)1Kyjt^LF4^KTzshh7y36eF2*m9d~?|?Tz2DH($@G~39!HK
zsvsM~?<@^34sQ@pj5(j9&+iZCkqzOFrLM)U4FZZW^%wLVpaaF#-mlJnc@`Jr?_7M2
Xnx40nk@>&xB64>na&}**Fw6We@pX2{

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_891149.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_891149.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e2ed7e935efb75fce7b9bc99d543bddb2590e36c
GIT binary patch
literal 10306
zcmcgSZBQH6cDvF_T4`5+00|IZ!eAR=Yy!q#v7cjX<1Y+0iJiP)@)V(!umnhAB@8C3
ziJVEEr8rYWUs~ieoyeJVEXVE`civ1$C)3AEf7E^bQ8sd8b?eS}=Dk1uN8-G;^ZvBw
z-j$Hx3FCA+y$pBn$2sSoz4xBa)j#R=Is(e3lFu*xrG+4Vi#pk&&orL?TtN_X1V?b>
zC@~;E$pI4g6=TW)iX;?-lk{LpS!DT%$Jy0msK+VbPsvf7>SKyibLu;q+sX|wlpOt|
zFqE9OFvhTQnBa7ul6RQf@Mfq0_eF9mzt$35Eyp@3Pf7l$+~)M_j2EplUcAnDN#Svq
zjx)Tgx}8}#`y9|>o=TmBr@R19W$TQWuQP63XWZmuVEu}BRRb(n$E~+oB|uSJ6+r1Z
z^E#A%<jO8JSN$$EP{h@9HSdxG#c+R$SKhtkGHJCuL9gBSBn<VFL#U#mvQiRz`1F}0
zJ+@a)4s_dkSM~Z<^?D@s_{(R`pUpr%p%A)4(s?JwY=NMC*cp(ts6A=t{edSIv;si_
zh*BbZC9+Q<djMMF@OfSC;eezZabD)t0K{uhg?Qn$P)V9s&YnJb&er3ogkH9w8FbB`
z{wbi$5ka6U7f<FIX8Y*Lk#`igGZ3N54PcdduvK}m=<U`NK_!%BuYJh80jydmUxBR_
zOhWaviXcKYLZwhM4LpZxg<8Rc$LfM;2XGP0Lfted1HrU{TQAfBPW?2z_cXwSESLiH
zU<}b|5G+C&qLarD+RQbDBXhiCI-7(Bq5Qe<R^9{SH40UN@wxDf*>}KrO+po?L@gOR
zv{~3JXhx30sVf8x^qQcD-e-%jNl@X|R-sW)<5sgk2%A7@67MNE!lkG}RA|J5(1b?O
zcxF_KM$syGO{+kzh2SW(Yl04AH?E<{tio;)6vA4FQjE<O#MZCE-X<v5!7eI@UAzjr
zHSaVF7zd$DD0eA>D`)H}U?}dWvil#}9xTp+a%3LmLU&vv7=;SNOBOr(JW9OrdpMsR
zdH4mCyI>WzuG!TstIuc}Bs1S^h1xct*dnZ<AT+OD0aGM%hA{NP1{AlgrLc;h_6@LG
zpNZW8H;zKm%HbOt+R14{ox%&k&S}tLLMP%iv`g6KDa)Qn?)mKV%xW~D18azObVi}w
z!uC9F3m7(`P1v11!D(<yLfheljDjpDsBaZo1Y^EbV5pW4{*xkv3Qmb7^n^hDk^Gfp
z@2h;v^JLJFoeAyvqq~4lE(eQuV{hIYm~y+3Z3%mX?ZVzWx~!W+5|@epH-7SMP==vG
z{8*Vj9@Gk9B_+x}<qkYS)`y1!LL(|Jc-ik9&Y&ZcNsZY9Ba+G&yy)b4B;HSud|F8!
zX*R1~QUpgOouBs&^Y$^Do0BL9=e{H<$J|~?ZRhRYVW*^;cJjV}q;ZY<?7^KKl1d(?
zpvwWiPf~Kepro@0ePeEi&CYR>DiHMXPU}8NHD&V$c}YD!DL(@a`8n;!Pn8cnc*GHp
z1e`ZOC20de-px5}Q)9X2h@{Jmj!)*dy({AZ$8cUdH$LspjZgc%D<pk6>OO!T=6w@>
zTfhzP3Ies(Q{d5cmy~|kAQe=$5!wAfO(26j5!CcbCE2FiYr_;JS|$vLjLXdjf*5d2
zVsq;O1xz#ZfPMG5TmcxBpV>Yf;)rd`J|(Hqi2?`m6TomE!0=wfImw$14SBbrA#Zm;
zQrR7ji7|;Bkx09w9G~<{>VU&O3f`1*+8>Z~qdw@_(DFc~6IO$(gUGqP!A?m94VPci
z`D{a@Bk0@!2roV64eW#MvHWk#AI`Q-`uLH6-|ld>U9>w!?7@pZ?{@I=yur2r?`R7;
z$NX*3YeRehSHZD~(H;KFHW;$ORSEjMHir)`%-((N?VbBzM$*ebwh<@qb&m2EfIW2g
z17Ct;7bbo<L=yVqnciq`eEb315I*vVEz0$}AC;8OX=XKXGJYUc(i}dywx6zOOt{60
zwk4`OU0k|k+9DQj37<%pn&X3FsWsg5sLT|*oY*f`?3ia$Wj_g@PO}y9orxN;db`N(
z2zRITB}-+EqP{W7ifm`Nds$5smBj`{eZyymZ=SqyGHIW$Ni`i5^#{Yp()!XLJtNcW
zkG>vn71=GYo`#K#zjHZVVu+|7>&s&H=l~+TwjrarKI%_U@z-X3Nv&vVpFg(H`L$tT
z&%HB?Zn5)>XgVY6&jNB$dEAtsKD8$_*XxsAV%7F}vsk%*!S!|jeQNQwFMUgA2gHK|
zV&#BXbRm2kgMUgUIx+Yuv1<21i&%Md@zQVXOa15X5C8h@rPm$eafevx5R14U5C1zj
zz7x?CvC+ioC1d+nrN1(NX@0;S4R=3+-E04FXl{6RIBrkW%xlDkJt@=PZ}s~kBs%ls
z(c`gW3Df6fvNNf<Q9r+Xq3LUKVe7q@#D>H78y~QJ09I5oGaMa`4JVEzJO9Rz+;ij1
zyz6iK7paBU?)k)~?)&`@iq1roj|^pV6|)ubio~VQ?epcy;Tvx+I35@dN7U=iC}G1Z
zYUAUxo<x^u+#J!Rjg=8i+Ef)E5KUW?dqiUg>ekMAW<8&k-ZbAZr%bKMfN1KNcZtRW
z5f$KTi#{x!GtHXduI@@18brE59xjfxCaT2J7Ljg=sMB<D>@=)VzBy?Y%XW(N&ZuU&
zktlj`c?$tkhIigd8_n@oKkZ5c6UVRHl9$EWy`pjN!tTYU-;j%2zkKQb>*D@bMdPc$
zVrk_^hWOEV#cW${Kg80V5zQl7H=~d0W1ht3<nXuj?#KT(B<Uy}Gsn*-E54=MpMnGv
z5;-O5$0wcc;fq0}mykWeI!w|bGiCGpU=UQFf7BhcjX029%ob$va9~#s^;PPs?kY1!
z2!tmSzGcDCGaJov<VZ894aF(q9a12l8&dJykjm$VBnpL}gWw6guM4SwH{=tnDQGsN
zexHG0Qq3ultCaUPDnU^Qhf|_$!r`7KxUzd5WE0nvs4mL56tI5<LO>WT5K7#kvW``V
zj_4vxgmNi4)w^^^8wB@IE`k=V4?!3SA(2v`(JH_{;aLeQvXJ2RDpwrU!t?5td2$2%
z!t*(N#Rm9==X3bV4e$%k=kVzb@C(o9@HHIzqodRv?d=MA2T39dSv~A@lUfLJUm>iz
z>A%+@D}LHO;dNZJoa{T-X*u5A+xw!$GG#er;hf_Wc5e`Tq~`HSs}6%styujREzP~H
zmL99c<!|5JHsosGjRD3dvk(B#)7G}P)zW9RV9B+B#UF8U7!1pB+qB<e0Wjo6VFxLI
zfmaiJ*%_SRy#b&quL#su13W>ZfIVXDDBn`>$hDT#ob!^~;dJDSJG#~=I(q7b>d%xL
zWqYEe02v>2L9=mAUOZ7i0HYut9L^zR;gJwVl`aKrwz4nhX@aA!mOUB14yZ$>jOy(^
z*OliP+hI6>f@n)P9Oeh0AyLENCQon8xH`GR!S0$Z(6QqH_U8fzcObxb5P?pp{wqv8
zDlyG5vrN1z9!&I!^*d7~oxi;F#as8@T5MnB?jID74W#y55KAsBy}>ONJC|rDKM06C
zx;Q-Ifk)zMrE>hsIW^=YTWJUf+~CUwF53MNJ3t`dxG1T>g9~29=fFD=0pyW^^NAgO
zE6cxu#(st>8>-$!6?$ViAW-z|<@Z7lJmQI<e*%!u)JoJ4Kp6>i$=*bj<<KE{d#cvm
z7=9cOJn$dz!DaYEm{>LwtbS%!bl0^#G5h-mmZ*xzfizS3kf{-wniNx)X!wR{T%sD6
zn8q|yGP5tb@7n%2j8!jD)k{ounla8Cj2=ue)$#Ff7|Rl6Sz;_{hMn0H-E-w=xGOxK
zW~&~u^&(q;r8|5$Lc&~35$m5-zrTNpGDY@3Hk8Jkb0f1OiH2FPXlM$b0?%dULi9qs
zA>I$3*7(iI8<X?nUrgPbdZ0fPKK36JsdAA&s0meRtVyIQ(zG`6llbO@Ir%DTwnyyn
zm_fGFaE*!e&;4}vr*Zo)E~IJWL%K$!YvTPWx;|0+uwj?juxs9)YS^2m^)qagjrCtE
zjvGIzxn7g7|3!V8E`3N>iF8%GAq7aDhjndYUE4gFs_RJ8McCZiQ*>o~%O~5fZ%>jb
za|>XkjTMQZc|KiI@p~hqQZH9#e2m95n`R8*Uim7a<8<Up43b1_oIi#dn`IbSTVmwT
zh>#+r1ap93*A&P*DzkFtSutHXpsZ03A>*PHNSx;cGbOh|ltA&V!4*SS$gCAIYMvF-
zm0Jl(y+FAXS#Ds(!UhVQid8Tu{#{czl2d}=%<Pq{O~Bw2g|a#YVb!^uucvekap($a
zLB*+14l}z(NR7r&=7&>HGvGpK1QkOF8r-Jys1?cqW#AxZiYR7uZAdF<JsGo;&jEa1
z(qvclAho)t<ei3j%@lN3Q7_~kkgFhS3sA@mLH-Q(H>AsZH>8Hw6hZfFe&9?jYfzvI
z1~+q8LrkzSJI~Qs-XPZr7AV9DjGz@*PRG&jVHXVAa*i0Vr(vf<%m+paKH&*Wp^sq0
zgrNA8<j7g_uhoA7umGod4mb_K(a!-#19uvMb}7MbvD0=P(z8c=-b+qC2*%eEbb13m
z-V*f5E`w~=EzNt8neVjtoxE)Ct*sUw8*fYVICcP9E!gb0T5_(t71Mt5-%zmiK4(?%
zNL5Rk5vS7+mSy<F-LF3S{^9h&OqOfMA-)>sWqZ#-s}HBStfl-2M&q5bCDOsyprCtr
z!Z#7%N70PJ3uzx0I66VM&ubrr><*-}s7r3=Bwvr_l_=Swg0zqql0J@6`<S2KjK)=%
zbx8$I3ZxbqU`RG;=xnWe*_2^xMZwZRIj?mYBTm^+S`BhyKsjgVB*oOYq(Lr^8-f|d
z_$0EOZdWjX6bstul_J|Uebx!XcAmcqP#?j6;O{`#z?9KMiD70kI(g+p_*|qN*#T`-
z8`~5^n))H#DAJ87dULqzF=LDy;se*~M5Z};O4RKRANf~}?h$K1k+f{99<q%h+nDG|
zlF6NksTBJH7%m{Ej;bSk?8Ova7w&=(R9`gH9qo<{C7L4LDRyg;6xkNYIe<MaFpTJ*
zjGl}+<L49St`DX#C<N)}qi@7Hk=+D{WtFil@m;e!!l%H#>56Bnqt&tgxN-LNgjqCh
zOKDrfhtpbSrZQR?Ylyvkt^T35TGUp5-2F+<^`4ZrIeZv+(y=oY(TZ5<wd(NU#}L3@
zj9$FviFZYP;p30AMVRDkpLO5txzV#g{)+yRexU6NAAV#o#m4`<GNMY;I(Wg&vF5lT
z)*KZQsw8<sD;7gAy)CL(RuZLV*kqj{Qi>K?(pJZspo%NL(ZXtJ))eWUITby%#5Tk!
zR1JLt8K&;E!4fmi)z8*18MY;wph_yfF>DK;N;CS%M9c&J0(cGBG)nZiO%@<WMsL93
z62yvq{0feFJ^KjyUtxx@2<hH+tz_<dCH3q8PoO;LTj-jSwW5&62OAqi?jSCOY$H%8
z{Iw|aW+7GH*CHxUBX$7)YRJ69j}CB#ANb%jID@YNy;i_VKAVp$WgG~T9QB^^0Py@l
zCwzB6VQ~IFXWoWe*(Ll1gxmlIb^>g&st^?TBv~s65THNl>HS#8HM@|?1Qp@-4qGi_
zc7G-ul6B}1ghoiAy8JskGWr!`_3;5<5%TxwkyCnD=V3)?)ndiRqdR~VovfnXM%_)Q
za-s?;E3D3}G#^3joZpSqCjTB(k`ml){^zJgPk7}!89>2)Rw2pyh>_=HZS(<5FT#J|
zE2ywG(i>;`qJ8n5@xx1OePXl7ZUt%38fI#vwJ|=WHG|-Rly8e}iw(_PoW1x9PojO+
zd#C$u@2%d&P5)s1we^ASG-PO3gtOcf-<4>;z7M6d%EYqP2%WC9e8OC3K%jeX^rk91
zBFad2<V37Ja^ijcvI>c-nqZ4%@k^AZ3{4`_lvLf--O|l>+%CeZFRjzhG)J3byRNl`
zkEEHR@F^^dt0WM8IY&3;=?_rB4{gYh^4ZZJN@BR+Cp1BTmy2gbTCyYHA1GJ+18M_$
zkP`V(^i(;22JU&D7dZ%ggw!ET2&G<DWE{yGvhr|a;Xb1h(s3$5=O#mpz`)H__wi^0
z;2Y5dX9v5CZxV{F;W}cA$Dr$MbJzn;Tf0>yn_2X=i1TK?9<}er_6i4J5cc5^4oS0Y
zB@qq&ELwpa!e-VsBx#0ha(a&)vgN!4iL^=jOzK~b2_+3!+lkR&U?mz{eM`$_)_gqg
zbl}8cCq&5nby)0Q;6H#2beMQ-C=Z|d9fU$m6vC!B3CZEzzchYPd$0BZ{ZhE=88cgU
z&UY=gJlN7JQjOv6$R0?zHvGU6#vPE%H!f%vYwk~{$_K)|%PgTa#X`#}s#qO9zFb1E
zW#K-2*I*BkhYSz2$5thdv7Zp|S&T>K-D;498F@WYvHa>gM&bM11biov=xmFxLG!eI
zBIpZFc%70OyfpX?jHL9qgOV0ppg_<$<>xc;_c`phNlNf&@R7)egJc-*jKs)$Y8&>A
za<>RMavQ)492oO)6Qj<9{9i#A>9@d#P%kS<lKd^f{u`nHccKQ~RbdF5uGU|ve@q)A
zY7{Ug0t-i$`d>+JZT?P4R<xvd?^$gBK}l+lk@+AmZvc{1tVd;;(dgCRmk`>@AIfwJ
z#j=S|&{xe@%*#zgZQXZ`eI(fd!G4)>u64F`xf*wCvfWzTt;=@nao3XVHsJ0i0^Etg
z=-~I5)Kev)V4qf?g(~s1UqS3>`%c?JmL`lhYi`sm6VOa=@3=d7Yj9Z!?Z=y2ZVuiU
zTvkCF)Y7&W?zY})UDlu;O*C(Nicr6MlWZg#V&~@uX9t%FXeI+s(PQ~E$&$tK&7ZVh
rZ(Sy!nVh&Q+!Ao}zVV-H{;}pM8hzSgCd<A%KomEoikhx4_|*Of3i8{G

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_912380.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_912380.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7170fb1da79b7ae4c5f583113536c5bca93dcc67
GIT binary patch
literal 11091
zcmcIKYit`wdb`WllHBD}4@;&k%2Fg#vL(}UBqwLfk!4wa%8~7y6UPaU;!-m8qO_#^
zV3sI-$RT9zuA=T*c%5Dm=1}zL*l3jEfC&Ai915I!{Za1GIH_9~5ODtEf6CcE+5$!U
z%`BIs6)K9a*8w;?^Ue3o<C~f9HT-9mH4%`yr#`*<(N2Q+J*ue5UMM`R(h|gNf+IL`
zlDMpV$;%|JQ&XDDT9TlMAUTeEQi+u>hBME@P>rKF4X5RFoSrlMOvlk2ecyObvn7od
zs9uyt^GDF=V3Zdd$Mi?6#{?XB(e<ElUYusr^^DPD1ZVy^$uVQ(eOBE8*h@==J+lP0
z<F*QL>n3p9CUE;Ea7ShMsEKpFuf10oSp8l$8VSzLRRxLhstR+e-UME=3A}a___m;#
ztE=2L%5e4X>n<}ei|v&$IE9+6-1;I=jvUq2!7@knoD0UZe8ZTVt#C)>@d|US$VK4%
zP8iL~HF6E_lb3C9n{7q@+i#MdT~83}hn|p-KY0yh36!}}MnmS&$%YHBpE-HacUoqS
zo;lZl+IQjP<pJN>=W0XG)c|ww{JA$?FJL|a*+Y0J*)%;j<%>l9W5I}QMCI##ekSsS
zLaiE^JS&q!GI?6o1$;A69w3H5czQH67Lhd*!J9J62P46#FB<m6f_#`a0u_(M6>mlv
z5>PyvZ(ti_YC-@clAez1k@$<EMdCD$2HlW2@?N1mzHJLks)$)vhKZKBAqhIcd9N^5
zynYK@y--!e-M$5`L8umLV>*H;Qn-W~VLO7vcL>{r9WfX+zEjvK)L>Xc)SymHs23Vy
zz&W9&Nb43FfW{pIF2w*X-iUjE8o*FLyM#u;iTWv<72@rN#F3@d;(nThT|(8jqARW(
z(=`iqLiM+zt5(;5>0T0=K&25spg3ZbLYGaTQ7^(v2#VkZs1ZRiMT^o_qTn=W#exab
zHE*CZ7wK9z(g_YsXQ@bMEz<4Ygw9rpt}qvSk=j$n{|c&Fa0*qURJ6D&;}z8QeXYu|
zcw5w}qQcI(RQNF>O}?`acD-F_S9U=;Y4JV6o{gMDJQNHQ=#1<wn_C4HBM?Fh#@@I?
zIz-Ls?(0?674O)hCsJs|J?-VlGOErks5HXv0+peRYTp)ATESCcEHB~&f<J#gV87tb
zaQMu{_X`_N&vUI^LZ`4l211N8#z5-C4+vhNtE~RAa6ot&-_m_(_v76{TiHw<>b{k}
zLWj^jUR|oIC81-yMlF}Vs{B&-JjTKpZ9<DGRRraRAZUxwszS@}2Bv5gcB^gW=O4H2
z7Cal;@EON#o;3NRE-fKYU%Ri2de%2`Phi!Sc+c0U@EQ6Vg&v(O%-w@REk{l41{F~*
zugf(>fi*&p&?X$bZ&J@9N!%=#dG#d@s-;R49`g_nLlZpGJv<V;9#YnE(VH{DF_jMV
zp?1n2nUHni=+z)!fUh6nf#<{%bTK_7kH+&@WGXr-n`Zd%81J9*g*aIo;6m4A%~WVw
z*86$?^jJ{VA*C3R4WpA`f3$1AtW&^RsB*G~3rC@oFpor{tcyS?D4YDz@Kh+^^K+c%
z6<Oy;N>|p6pbwACF<Czn!7#%}Yz9M-Gr^;y$2(EGF%soNT+rvADitS+#gVe&bP*aT
z;RdE<Q=x|uU_+@qEt^$%Y-Xao0u*C>cy7iQ3BhtVvjAkx4Dd(?nJ=c;8K?*YBa;Ia
zVLEDYLbj>J(6kSCF4M{w(1&?6#7Cl-W=dvCLqlh{`@#oyAv`)70jTnY1>pJw7(2lk
z#9F8#)}jyMD*9rsqJqXB2*|n#*w-5}H8COU(W&rF$fRE;M`UUQ%pceQ*tM&n(Wp%0
zj}HKv>ClKw#!$apa8}l1t0__-4@6#pEpq>{>Azm@ydLH!A~XI#u=A=vFyW704Nva{
z%WXQ^8Q}w+(csifC)7Ga)6oOIDSvcoZn9(MrVl_qI2F<Gv@Z~bv+;^|f7ii%&?2)6
zl5Zl&PX{OYw_$q7aEp8jcO*eP>m|(W{NB`Fk<6Rw6a9}E%lz5YS+OzCxDo@8ZI0W9
z1%pV6hw`@FiIa~uuV-7O?cTg?f8yj?ZBr&B)pq8zRjXD<uBJt@wj@rhI_kwMlEafY
z{m5C9zM1)sRNJx0<ei5TXI7b7u`A<}w(pggj>Nz!Ys)#CB(^EbNX&u6z#8jFUy<0x
zzd8Dglb@W-`WIdK=3a^IO&nj{v}MgvEAEjTE%zOt)!nUI^e#^3J^hlSKXH1Eas0%a
z=F&Z>b7DwhTC?qo+&}a!j!A93%XL!QDTz6Srm*cJyLe2jg<&(p65EpXNKDt_=+ebs
zd6zDI9)4hyx`!oZ7$#?_`>0X8D7H$LU72yovTyMeOl`U5f%Z542Zk>jau?o_`reV)
zcVM>G`j5OKC-z9zrc6w-dKcf8EUzsee{kTp!{;CLe0eT+=}qa_o4G4vQvaA_8A}X4
zHZk+NQ@hh=GJA5)&R_Ch#6FKbG#!Oqve%?%MbC=8IjK{bkQtQN_9V6Hs7k+=Iq<1H
z(<9ZkOOE#JtYqJp)IWxe9ZU_T2gHGevswM8vy08y>vye7jneM#EO$L*29qS(`!bY8
z|3l_rl6=fs=P#u$rN1kVF8H$DOU{Sv;Ux9QVw)dJjitvj2C1esJG#{O(9)aKtl6FE
z3CZ4An1HQ4>z8bui;a@43ufx96PtfdimeMrfT_-wtX*=pCFwP*Ej^Hmi5Db`JE?))
zPoGHnG8&0#N|I~#s`Ttat$1|70`#=`NBsP?)U~u<tp0f0oo$)MU$lPGny+iiTiYeN
z9fqgbv<qfrZ-ouBcS$rF6<~WZwUT3Zwoh{GU96MruS)c*sKJsxlxdZmp6q4G*|YSj
z<QS0Xfuw$wwgSt0q^h>;xKwp;>9ph=l<2_^4eNUe$4l$`2#YiQ-H-ajs5rRb%iNTz
z_et!&#qOo%Uy)0#pC4I%OX?bu*df?)OVv+?MQ!?0Dx4uDOJim<d-3nR*-M{<mq@AQ
z6^VT{aeU2SNjH99cto4#=@gx=5uKUt-_dQ4q0Xk*^r#rf>VHRfK7}hw$m9*#Fnc{1
z8oL^m^^t&o5*#}HEY?8$L4=^^gV8yDIsleSF(E4i`(h)Y8b6>vFy1BvV!Y^)74Znw
zJ&jPOi0_jE`7LmWO8(px80SMet`n$AtsIGz;fKa(agNAG+?Y~y$~a2FJS%uR0Igty
z-=|dDA+Ar-NucI5@6&NZ6zO%G1OxU=2!RyzU;$~+7~m%o<3(#+#RTh6t6FNCv=@C=
z;L|tLS8gxS>$jk<++L!mwxF-vUZU4*L0`GOM6bPvtP)5hA?Pna++qluUw0|R>d|w-
zYoS0eP=4Uhh9jb<$YuIVYO4T2iWDGziZ)L*o6AgcWbbWADL6PBc0*NsWWoYWgZdby
zV3OLQGBXC9F)$1DiUQ>uP*o#q&kkJd<BPUe1l=KbBEesVuS_4B^iPd&{@z%7LBE16
zFz26+f`R12x;e7H<IrRn?r5YJ3JUTyAdU1u_8$r25p9__r_AZTbW|JyQJtsv+`snO
zdw1Vk@-A`9y;AS_eCGv;zOYI&$+uG0uXLI^J%0sgv4!iQWi}K6T@NFU&4uS8$WHOk
zfISK}X5gx<13Mvl6Yl`eAtI#rL1tjf(PQG@L9lmG=0n-{P=+LkVqt2+b5U7423BU-
z`q7<J?V8tKQ`k_q>EihrKo7w$Lc-4fXM$L_5DYtiBz5GW*_G3}a%R`6*|B1FOJ?^&
z^RAqBSI)d^)y&NIq<U^0OY|jXK|aqjDJDIfvL^Z-nXL2esdmtMjp@-$-!BF~8C>l9
z;>71C9-0m(`k!evj6QMf8BORM>1Ih=yGk3AJ?VZV;z67nlis8sK3Kxqe`rn*-+pu9
zP0|0;w?Wj;TT+(vY@V(Ydp_>H)0=I~Z{Gu&X5N%CrM*97(~;Y;g;=KXr*SkNB$EAk
zdYjnt@!mUovt+)$ZBwx0nbV}xuh$TaHE{~>oNQ2JcO+1LXwhZB^7$CVu{M*<(IUlo
zg=m*5tKt;M+zQeZN#wXDt`)Qbi9KZ!`D78pDYz!8)CY-AjU&^3L*g_7sa_+H>AG=b
zJ#I+oIRbq9!W@;W8rK7EQTCPyD&iUhgP=!VH)n`J|8ZK-n^6o2%9W&(I_GiqnWfY{
z2nvo?XA(C?5od9#6qX0+k4IHTQn|QQua)#-+5S|B5vV=KO@gV?{%|-z9XFTFwnAWj
z6Iv`71v96`aS<bmhLz2xLJR`>so;Tw?_D@qai(k@6+CZ<S(!QGCcT)8y|7#KqWxCA
zSOgQtaLf-VfmLFN5amH}8*346DTi}x40b$j6Rd&_@k0Pwg&N{Lz?o6%5QbJd>4HYk
zau$SDJU@&;Z-xmssSI;`hjPlwbM=(MX*T`|dNB&jH;p2|C>%4Y1?6Uq{jCW}YE>b*
z6|v(6Va<nbxObo4;~w(3qha^Sp^FFH;A>6<IR)C;dC=pYnVgHbXM()qmb<Z?*@=uy
z-%J=(TL<p@0<u2co$eCcef?^1x{U6s|60(El@j#b*;(@9(dbGiSe3;Zhul+hk*Iql
z=!Wo0C=wcho=0xFOB7H32NJd_E`pxcaG@#LFcA#SK%o%7>3EHI0q=Pf0ObRaK@bP&
zy&)XdQ9?mhz7@4jpsWdH<B-YPYoXwE-i?ZyDgO-!;DqO<A&e0Koekdq9IW^tzY8_%
zpxCuvQKyXvU@EC!kDZ?dkYa_C*RdMKAsd;x?vu6GQOF2#{|!ao;{J^4{%|tIU6=LB
zM#wY-Bz(bZ!D-omN?{J-Axe`1H5Dq*5JB<}?eud=QO&H{J2pr7Bw(Un<iFwefHpP}
zMjO&`fAR9|!wZM=bYr6LdF^XvlCe~;IQ(1l&YZSC=kCu#Zr-_OG|ktfYSL8tRNmN-
zIJyeqgYHy!+MlUPcIVA4nOVu~NgUe@Y;mM7rY6LT;8-L7$dP;_{oT~NE6gs5*_CIS
zSC}@5Y0G-EBYDP);t$og%?oDne5U!%TiF)LwJ&e;uGo4cTh9`?v_Eg_U9t5^w!VLS
z>DTRFw&!g_5PdK@<{MHCqFpj>PaJ*3I_BR_ftt6^TT@n%l<4|ZqdDn^1@xuZM;7P&
zL~3Hyx^2bUAXyup8FdzY;`lQQVXK}OQi9kg@)>XTt(CoprM-tAT6+^G9$Bj@w+ya1
zwu4W2Lp+T<%`VB&kvP5TbbU0OF^J$^B9OCV(JMI)Bu=e1w1Lan(33d+p*ML|Y)nn%
z%-bccYmIfH*@||tFJr%RJkK_v7)J?Kf9G7D-Lt~>NNi7@eFZf-<}ar%Lwv@YG2J<m
zXWLiUZi(&Avj-uFVYaWBU6R?AH}A~ov$||FXYR^ryA&f5oxni3DPaHrQkG8-fLOz3
z2vjyEY)ELq3?R|n*_d#vK5nSos+a|W28Y$@GUZS{i$a&+py@aYTkT{eg<07#yss%L
zA0uFZ@vt$K+`71_<QRex1eXG(W5hciP#<Q&1j<Q=1K(g0aeAzB7!be}`b2Y86$Xf4
z17`qbWri>H1C63?e$);jcjIQX$~x5^;zr<Jg;6+dX_QJPk)Xl<1A)CmDUOV}|9dYK
z%({Y!bx#=to)Pdv35oawYR43N6{`jwgcl$Ex?TbC8Fr7(xTC@8NSFtu&~~s)6`-?+
z<un%Gd<0dI`H1DZ64nQqjvPjh5le1GkWV5M<kl&28F^TIGi0)z56%SrQ6&9>{A3W6
zk*vc(dJn6JYV7!+YoG{i>hx?`jGgq!`XOJK4~@z6+;l-QYey$RgT9VP-heEErdL7o
zniT>??k)h%-yvk9B6n$mtwIsjTLX!sNfPep{GrsLTZ+R2SN%%r3djSW7?W5};`n2b
zHt(h06TPB8(|9MC?f&f0-9yWUUt7MkJhYxmoLDnE5V=U@&D#^l9z!_P`{!>$uU03B
zguXkv)SqRVB+E+>RdY3beB#cD%y5?ctDz+Q6Faz_$I`R#tNkrqx2_{BHS08C+cqCh
z#l_(and$pPm&ak-g7|TW!+Ex0h4o6Tcd>1`F~@rI?6HyrqQt&DyK{xbp|JX8dyd_g
zXZt}2F;(+JsUe6ai*pjwoYhO_j-0jw%b)<-ay1pj&oh9)AEwB-=9`^-c-JH$##8?4
zT0xM2NGOaF*KW}tT$vZ@PgnM`uM;$-_uVTnk2r|II1T<s(W3(2OAlTSEokl)B42S6
zrxQ#e62y%eu8)3*M-A}EG{^ZplyaWY$%bQ(gL~#^5FSMW{z%a0_2}^N$Ine1SPJ-L
zd%Llk$F8@BQCxQvW>L;HcJI%jDmuZ~n(>XmbBGTccrr7B|KFk5c>IqM3abP}d=L$o
zfq;Mk{s=NR8I45H>vs9MR}79SWqM(r4+ikHJK&4#=YIyczky%mCS(Z$0=kJ)k7*W%
zK88gyeLU0s%jz$7e7@r$eI(KM4J|EQi+#&&4_nSk+NQ(+c=u;Ajn5dOx&vMWs+SDQ
zt_QJv)#b$5b%rq3q~q&4tyP~GT(=R7GcknE8}Jb^*rVZ*i~NKDTao{31aK&#WE9G>
zRatY#B)sm;!Mlr0t0f+p_%iLEi-x0f(?MC^kN+hjYsN!S*$Ac}JUZQ&;R}(Li&)6X
z8W2BtKOitOH!~SjHV6p?%o*9N@YFXJp5*QlifS$dn5M$q++?tqzYEAnJw^T%g!{UN
zB+1_s%)b%rzY{KqsZjPr%?Ay)8rJCQq#ng5GL4JpA2@UGelN#Iq?+hDK^&#}DfpbD
zUZ>!48HcIWGTaLfc71Ey^A8;VPq;5OU!Ol0iAptdu&93O7+Txw)G%J#`RCU5r=0J)
z-N@?yP(>KGtvc(|o@aF|MXkFCivFPfR{c74f+Y8?R}s$Y+j|!FtXJb|jase6)op6E
z4p-~d>ULap5%8h{(*F-TQ1z*XpqQsS&=@;$^Hqwdt^dmGBCV?i<^$oDu&#kJJdGim
zbsdz~^#s(;q|U4xP!05qQZu5OiLh6#BWk!Edh-WYZe4lGLhY;GCh~yz^2dkn99k!!
zxOf47mS28Q{V%S6a^)^vS-BLDE(LPI@s;4L6r9aPuIEl(m-=r!Md)9hA)RC=yv4Zg
zxYh|MX6HT=?h3fLJn-u?U!K9m+`E3|J2|^Dc|)26V!(ZRu%2{&b%?Mw<t@#(%=qa4
EFFxLMN&o-=

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_925632.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_925632.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a650a226ed8a3ed8034bbfd8daf52b9f1a6bdd7e
GIT binary patch
literal 16181
zcmd6Od2Cxpn&*4Gk4GJ(B<emaTM}j6)@55hB+IfL`99(!PO~XKN}_H(Qg$pnPUt}f
zA)R1MO=iY)PX?xYdnZ)egD8t$L|HTtr7_rcW*2CdDYS?;UciI#VBr7Q?fkLZ|LlHM
zkB_9-l;va(YytZCs_OgduJ8NmSEc`AFz6@<znJ^^_?Jx-^)EOg1w-QF)iVV}-J@8F
zrKhNC;xB!TCUM!c{F;KMWR!!RASFq{;x9>OHmBhjD`VxXf>pArPZg}1RX^4|l5ZoS
zWwqZ^LiW8Sw9u~a*DBdo5@X6Siq-v;eyo2a6MF_Dlp}tnQ<iZkCi2o##BbKHMS9K_
z>A72^=VebH)v@^>C>|v$mVU2kS)+rRD9F+t6QmbqNiW!fzi<owqU`+89`gr^Ys{7_
zrWi(ATmdDYD&KI;l!A;nqi-%#47F?_GbX=g*lMLa3^3niZ!q8gr{=YMi+R<s6<Ovr
zM@zBw|JUcX(viz<HNOm7^?~wQ9<-twR=|!dD+#1W6>JS~8G&oZ7VD>W3+bI(q~lUG
z>@FzP#5S;XAJEqdU=9nCE57g+ZLz$>%{l$@FwmD24Wt@>X@FQ10yA*(%#mU1g%j6~
zT2F0?o!%517MNq_&s;j2;Cu;Mld{MJ-OR$Y)#bL0Ib4Dkf8VrmbFP<Ov2gm7K%W-q
zVL^NPjFpIA02#G?c4pK$<`U$Sj$51&SUEK&xJ8^66Rd3Q#XzKh^RW(nbx=jLHSK{N
z<0)}NZ^ST>&_hxj|FZJOibn|!PiY!2ZhJ=Hm3)Du%RFV<@T&O2ByagPylTEE$y>pj
z`SL|2MR_XuQoeE#+U%*~t9Ua>t9IjFlE9bo)r&9)yg4ab!&ie$%_8)F5qLa1NC^;w
zG+a(Czk@Hp<)pO-4`@bU<*9y>a(42yeBm3(CHqX|c5Pcvs^4`y#qR`*O8uFPrAB2X
z&?a7k>*VWjDo#(NYH=zqpVU#$(;`QjTnX+iuOrgCGNkpJq#JlSzl+b6(mWPk0dY}2
zKbhLd*FhQ{$6}nexs{&XL}F8Js<oab-o*8!jYAe6fwv@AVDmPdjY-ZHzJ+gEgq^@D
z7h(N+TKQJK8Mn^Ul2%3*&x0@E3rA({<eX=-$&XdZHPz<Mmsnw4R7mNA)Vu!*b+xC}
zm91y>e>A7cNtl~-f5+3YO&JZzKJVf8@VnFc+{t%Nn55RFeqZ0WWNBTz$#sTr=Z$<3
zUN2;abn_Ozo6kwkd=K9U@w{Zbcbm5MBun3JCVP{dubD}{>wPk(@3-Kc?%B(?rPZIs
zN8vm8z0wRVg7@la<Lmh%UfeM_Ue7l`JZ*mvu7;2QO+o!Y-LUTm>W2ONzRmlHCo6;B
zpRr$6c)gGn-p9*$CR0k98Qzd7Ddl($q>Wh?|BXMuxAA?CwUYl$Q@1FK?lh-|1;xRx
zrZ{K-wM+{N+j~ye%Um&{WZk#s9RCIp5|(9xV%p}K6qK{>aR;|da}|(oVFa0bO3=-5
zvtyiX+UjHlg`IWY5aiR&89`;^Y%^mHK`}LJV+G}+gPU~;>QRWf_jCwKF;nKA73A!!
zTTr^(vz)_nP*B>eb8b#hj)*^Y@}qOvZBq^x`PPz>@F#~G%VFP|!<$&py4;+Tby#iF
zsn5ye=SbS;OfuD;;<e8Rxrq`I)s1B)%m_IN4zUqq8F46gjGJAUb2%Y@E2}OjMx1V!
zV06xmI&9nm=djK>I4en$&%qcH9|AtC&@}8$;7=%6`kWN<q)+FJl~gBa$Pb<X{iu_3
zxrxlQz=+AXHBgvRER+1q2<q9<Q5PO6@nZxgjHFD$#Nokp2`VxLE<v9fe3zh0jy_DL
zYuq{Nc5s4TOe9f3C9-pMWJ<&w=Zss>+wAs*>4hm9Ote5x3bYMRvJ=*VV#K=8i|Oc`
zpcuowP(lN&F7ankphpsogvk<HYo8$tP*9QO;c^{>x~l)T!XM7I-kjwoU2`_OqjlV7
zpR~EhXJ?whshe@Px;T5Q+c7=Y3b9t`OQ&_(=7z4c%-ym=k`<Pndv?ZZpM}M@x1+0j
zPY2`(d1G_#dB~rhwoW>@8OIc7gJxm}$Mt96$a$%F8^svBgRzp*h@$A3j=9_HZw{VY
z*Hw9sJj*lQQ!lB5bg(a)*Wf*|T|8#44LOmyHKHhp<r*VJbtt#adpu?=4PHk^i+A{$
zsVHzOv>%yUR+y;ifcIpKF$edA%28P}Vp_aMV}`tlsTLV(!wh0Ny+@ztm;zHMXUEUZ
ze|GiZ)$sgEQ*_rMlyk^?EVgCNGehp(tNyEj`CwDjQ12ajZZHPMeqsw11jkTOUAP1l
zb*#L-I{2%a)ni{+*KVP%v#97SGMw`c#enmM$hq`>q_Gc~`_{Cm=){v_k&9QJUVA5U
z@f~#Xdc-=8PL89Zab$2p>BjQl&2SZ}>P5z0?{Lgm7BWYg4x*ZaYb~hyEHa++zV+Nx
z5-D#%rk0hR$k_d#=+(|uHOfB>ohT@aRJNglwv|C->RsLWD|)pa83(+>|E$h?mT$Ue
zUNQ&EqWQagDk)YP&EM%$#tKV=lc>-Vz5ud5Z7i=OIE3<c_>|9#1@{`38iFUoO_8#m
zUvghBezmx6d<zC1y4D_W{?<_Kqn|N3caQmx1%^WApXY}M!)8>|zS56sx>hf&GyRaC
zm~_=AxlmPpQLrB6*Mu&hyat~lmREom#HX?cy8F6lUae2@&$-1hQ$esKG=)k!kZF%^
zFji0%+6hClqZbwQ`i{m5Dj`~lcJ!cv9^cVth30#gmo5h{eexsUP<rHOtfVru8<jM#
zm{4)2??kMiBBVkEb-ts|nY=)^|5WfOVrqPJOk?^>?%s{18$nwr{}Uc*YJK|Wnw&sW
zs00}sk*3k7ib1q5Qrm@0U8|5dfHVVsRlJ_csfjmIxdq>QNyQk`U-Spufn$g%56&Z|
zI&?XF@jtYOFQZ*ut2ElR7wPxG27)oZnl`4WupJrNS5B;{pD6y(_C$>ipGBRp($0E^
zo+(rx9>0Cu_jcf&ko&iardO~VDS>`ZP|x3VILF4_+&P?}nkRZoP;n0T0ykp^zcU%k
z@I}sHr-6Q``A~b0;;D(`DJ;oHNheU2o@@XUW#Z}Wxm>chs6VBlJZzLR0xO;x=&X5i
ze4=0#*ek%bxzulg=Pb2=l$hR!M9ES<;Z{kpt?IuHZMviJD4`$OTBpV>xT8&-;3l%1
zz5E)#c2oxa%i>MDu{T1(L>9k3g&=xVK8+7bVYMG<JZd*~0!ZLV3*ekZ^D6MA<hU+4
z(^3;j4`1Shk&;XP=@$9wWInx(eD?g5ylNZy?D;8q*=tvgdU6oEKfLVqwan0Py2;Ly
zs!9GvHOb$grtCbaniOyjRpNE}DB<PP6tB8~{nD3sX}$cP5Qtw&Jk-U4_o|&UGY+nr
zbxv1LJ6&LX?c+Fgdcozc9&uCyn&NhjEzB;sUgC`i?y8D)+;G|*Tq#8D>6;TTGJL3d
zH3j6aWcSj+f-KA051Wyt@zRzK9%=4&Hhx&#;zpJD@s=E=p>y)nDU1iVQ1lwO9Z>eN
zTu_`kda*y{(YmmTsrGugAHy$rMc~*jT12nI$~xv3Y|vrw>WDLf{fw5rsaf!mT?bn*
z>o^FxI)MClFZJorgW>zbVLIHol7n_1ik2V#hwfkR|7QP_`N;XVBbOcM{Al#Z7%Cr&
zlsO{>PHqImEL!l&o!~OM#%*&B!Qga(b0ZD0pac)jJ}xN1BXZy3@Hi&?`u1+(;(!ZC
z9C3?|vqL7wVuJN5=fJ$WlvgVH?W)-Y_uK;b^Oz;+)4Q;WkbJtshsA*?d(9AVJP5o4
zf36Xj@c#k+l@9!?yIuaSk9q>OJAJ`pcp(1fRQTM}@|K9AC8BSM>6yDd{+>XGe}Ay&
z!GZe+!uhCdci4u?TA%9MB8uaYj^k0F`ZmmY$bV>EUmj6(Mk+g_K=tL%Mfux<-hS_V
zOp|-p;5P(pNK@?X2g85&9sfJQn&7!$QJDT*v#j~0@@vCahIPY`cj#Xg&KHV;z(u4e
zjcK&Lp1=?`onSw;zILAte(q}gnn3<X`oOt+SC*~>ZJ)e@i_h`r1m>ff5@_tf`v=1{
z(Xu9x6KjoXii6!^AEITuV->XzuHC=(H`l}cPb->zDv@VhQ@qliF7c*p8e`zCP|ebr
z@63!+6)&Y2qxTe9Dcl4MxJ4<bFPuGj;-YmpwZu~}CWn`!MV^{kGVPoPQtjB9N&(vo
zyzE~Ufs?%5#$@ToGD$~!%&*^+fP$uYi_>_sp`f|EN!q%b(A8|bc_}1uTXZ!)4KXca
z6`pdwoG-=7!Gkf;3WCp6@|6j6v?^ss`4Ya0Afe^Sc2#4<6!1|{W&|ayAtgWz(m*Kz
zGFro%aM@{n#iN@MSUS~LTn-?GP{teMsC26LL^_X1@8pZ$2u-C^<3akc3oLhSCT4>B
zK+4X<IaN}Qrw;5r$xR`o;0M7d@M?)iMCnqfrHH(eTI<tBD2q?RoA`oFXks?cM46nI
zhLktL(rG1UTRX5G0GWgSNz&5qAQhnBb-+AW#D1l<+aivvC`a1g2nb&OB%br#fb}-=
zM$+>n3j9YsXQVL!<W`a7H%O_O{E3lFA%^L=UzS@<K$3T}s>f;xZQ6v^X5+61emaf6
zHEq<g@i%3ZpN<%2<8RI=znyP{KEWzy3Ht8o$kO9f?jAs$I|w4HB^X^N;Hi7k;$3_v
z--Y+)HaKk-EK|~5eA^F~#k1z=<{Q$+EE@vY^22N3yQNhrBB?OHiB-#sI}oF;b%4Sq
zQa9~9g2)EwkH-Oh{XzQ3)ANR?ZH6ZD^zuC!nj{zR5xzGAea*wEWM=omi9wqwmE0A&
zOi3xnvyU%g<>Y*qeiN5|Z<o-y{64^@_deE1I|JjeY4cW^p_;Ka&LUyapBDXMJkP}T
ziWn|-P`NTp$}!Pnf*ZkA0kPz8)%d#xlO34UVzLvHI!x*@X~1L`CKgQI!=w?D-9Q8#
zz;@G4yVb_Bmi=54PH)Df1(Q}x+AwLy1UsJG9!xqh>B6KNlO9ZZG1-gBK1`DSp6C?p
z$7vWNOS=lijsk}vJ`uuP<PPD4!<h8rRAc(Btd;n|+yKr!g2^BzM==?~<QR|y)H$8_
zo#EcXIm4Ko#MyFyD!GgJOF3z^FK~kThHVN^*hxVIq6t3AoyPo^FnJpj;^5-p6x1VD
z0)=vCaSU)xXD8s_bMV7m!JO}6@*_+tFtGx0;eJcb?hp7Cz2k~4yyFD?_z~1`8&~!X
zcv)WRyK+izNXHxjo;n3+&-^-5<2@>YQE!Yu5)?CLwuDb0bJri?kdca3WNb|bA|q`B
zQPYthj6|*h#xn@e;TCY@HrXON`SwrxgYMw5C2QywDr`fBwv}!X3;g2H+EujYG%}nP
z!O78|oC_&}mzQSYd{ERFcA~-_WawF~TPyh0{F?cz)+Z;>zDvk(2>>R5aU1*%fs>)8
zh^h4#+?R`AEUxPYyhmPOAn-3o?u{*t0e)7#qDD16(W2fB!(Kqv@`?iPpPUQaT*?jA
z0G_v_W92g1(TDQ-00%UhgEdPQpZa-WRj3OFx3+5)Aim?M@c5H%IKe%=ay4@P>bHj?
z?@poNDO5P+)5QuaB~C#9j-kS1Plh5FE<e3`Epp-7w`U^OAET2$j<6gW=1?K$)4fRH
zk}L9crZWwR3|(I7U(f6IDPJT|(b91Js%bs{KpHX%Df#R9`+dsirs81x(%ulg)ap~m
ziYtTepPmceyq_DcLB+en^T^!h)5r1(gJzUh9Xf(?>jBmTlyf)A-xW5Yye8;uUO`}C
ziP^}lM!D5LGk#Y3ur!+66u$BKt>s(4G=5$BRcW+!5akZ~6wfvKkGZ=y{5Jx&d+ZYX
zX~%<o_xD8sW>!RVn~|p3Cl{efGcq=W_ab8_(sU;9$xuBqS;FTqENnr>{YbO_jw;?v
z<?I7I{{IJzGN#T6)ch&`Ors-*z@nfj)cIRY!wZPx<K<}39#;HT(<~mpu-@1NPZmM~
zIYhkx)AphEL)~`pB$xMkVDfd4B!L9ATS0<2*Q2_l<CQFp4JIoi&Z#O1P|6=cV{rh;
zQI-u<bSE9>Y`J#Xdop5r^?s;>Cr<w;NpUGLj7n3OrVdgQS&l${tzY*80ZD~q$~|hI
z)(54qN&qA^sUrZd!Dg8Nl4=Y{ZUHr_lCEHOs4@kcWrrG5^4arK^6IS6T}nQCeo8(&
zfS8ico}ZG>4hyE_v*#z}@m%3~euVKm2ml(Y0aw$U7JVQ+BrWC)ZvqLqNl46&|G6RO
z{}uiRm>>b@M`h4nMH&uBKoD*Qn!?Qi*^K&W`lf8tBdqP<;_fXByQ?FG`$^1CaXHx2
z!q{KYgR=W&p>ttH_(!OrFIsZoA5_2Af1`iW|HK`+ID*dDqlZ~k!bV0XB9m@3x`2vr
zh<XLKuIOJ{wA=#z#=|9gi#PDsO-wNKCpwDQwcu_6vFNj5ejIV@@*!W44O<1;o{9D0
zxl6h|64+O=Wv{s<;Q!C?=h~kR^@#vo$h=Y0jcU5rYkDJ!-iW?8f%4rJQ98ziy`0-e
zy#ru)^^9-c-xcWh?+Y5A>dPXE=14_z6sW!|rq93I=kNQp>%so}``7gc!tG((%HHLf
zNaKO0`U4Tg0Yqp-f8d42a98gKs4hsu-Cp}=y$^eT(e>qlFAl70`T+>k-|!ATQ`CfZ
zB1OFj_VovD1aEvlkS_%Y+U|`njR)sHnM}v=f^`p??>C3(Xldh?$q8sN|GRuGV0Z=i
z?)f;GY=ORM$MY=(tR{&G`6<xt%!hcpl{6AqE+afj#69?)EUC~_OvFscJaSNwG&z}z
zDqOk=!-s*4K$Iy>j0v4o!nkz&axx>ZaPt9gAQS!bD1Zwuwv3R$1xkij;&VN`J_Bx#
zidX94h5~<2z^OJfNIjguhnb83Z;ey<kebha+mlp*P*Zj#oZ?Ws6Y3Azk_C+db3<AV
zHDOmEBe2PGa9<?Dvt7F<(oxz(iEg7*^aMU=W(28ZFo&tuW;^48S!C6CCezBpN7#%2
zvsRgr1W~vXOspr5){RfMB(S7RX<fiezCM^i9lVv*r|~3>3gkn{9){QR8WA(#b+8Vh
zMdVinzYIp&Mu`IF8CHC42J3vW0Oa%^R|C4C=e3fo*qc!qR7!n(5c0GWSywR3L}E?C
zOx21lPp8tFg7xs4+)+8XH6sW+0R}EwWSk4i5!90o#~j?@h%kT?l8BXDmXRwlQFX%-
zpe#m_UrAnO5j8KUIfr=hqp(fe-h-E6_&t{r9yZOu(;Pb(r8#)}Gr!<)z%4np27-2B
zMv7zbKv2NFRIm5~NC}^NI>h=g#2_ffZBwHb1NRpYA$CEK&DsT-(=I4(lG<*P+Q=&+
zL4oh#1zd*prXYuVB7t@aDtM$b>0kwV!i6_u(r(}n@gQv2bV0^F2CnDu=lTq+g_pwi
zAbBekQJ8&wSQo4P>W{SE{+J=>?q&bw+e2U<WHG%Vp!FXNo_ngVj3_E2`pW0Psr73E
zI|3uY6HBw9TTx9r2tkS6{_X%gcJXyb^>y$j;g3@c`GG;W5E?*CC4O*|?>ibe>OZxi
zuSWXnsD8(Wz5(eQ!ujEWsJ;~nVDiand`Fb20Cpzt?n(d2pfSpndk0@Y-mrf-m>;}&
zzc_U1GwVa^%K7N7UR2y0W%h0`hY)jUjb7`BGD9283B;WEue*NJ_-$j9x#T_iLYI4Y
zw|_S@e@BSEU;nu9^Rnf#)pK88`RdBLZU|l;kq0Xy!J0p}f_=<4;)7mMVE(U*ef=@U
z7;wOmc|LUF{-3~`puNkU)p^u<I8uHX74@&#p45EfKt(4JbJ9N)ms7^l=OtA>`JH~>
zJQ&y;z7uzH;#w-FBF<1u?%n<V{Q)l65!F|Ql%MGy>i!)QW<Pf>J0DF(^m`+Uy`p8(
z+_Z|5&Ha0rKkn~<*wal2R`}TDy!r#oEHPCO$qdB6DBzTmIEQ#tZY)DWHiHDpU*%40
zPEfL-0x|=rqbz3$xMY&lk=l*-772V(<$|iY04hTRibgbaasuFL(^`{7p{M0$`S&95
zEXm_>QYN%ndPFWM7dC17vibfgB_oxRP+XTlanadeV=!hg(l}%@FMLw1dhm%Zsrp3;
zOy5{u2G=^|0*99ofIW)|l3EWcP?b0X{1sG@hJIqTXJJI&HRZO}V<zIe5{0CPr<XUK
zE_gQz>dhoYIQ$wYf#dx(7Wi8rg4Xfg9I#n!E-nOdxZ(bLoR?gjqNDo|v#J0s1--@n
zltgZl2cFzAj=-%tyqnx~zbz>){lW}h@8n*e`;Wl<2l#XS6A(~a`6c%%mnv_+1)50}
z)8+<h{H5Lj>7LmbJpZ$W&pZ!3t5?3Zeq~)ZoB}Wk_HxIcUnToEaBis(fFwP<RWp}w
zm>ZC};c?-HWdK<Q)_VW3A6^4oy!7o20J4s}9l7#u)bgXqkL^)2yJ4O{=833z%BQ+B
zAE@!U?=W#Cm1B-;D7fH0<3AG|h%!|hj0G{4a9xyX7j@NX|7qCUOyvgCfS87GQIu&T
zDlISs85iL>*@nIz>Fc9<OGIHITiu@AlF(UfG0C?64nE*N6KRh;4J%J>O~_0He8`3a
zc>25lbTyISdMuZ`0*_*w@?iOXukw^Bm;sKcX&&cwXopATQF}DtqhNJK0#-4+n%D61
zM*xiA03M2x*EwmAp4W>D8t-;^P`$v~$SKxBbJ!0N^lk?{@U`1u!M0nJqW#6Mso5Fv
zD29z4IUm8oC*V3hc8RZ~vAl>_U&kd8vkGr(0j|c+s|9Anip{NcZWh+9KwAYv;$f@!
zK7+Ug3sY{F3u~!#t1BAa0<mGU9OtmR#g{3r4sH#24WKey_;l!{p63^M-`ad&>i$LH
zmla=BtZNQ=`(Kk&w`Zk)t#Q5X6jIcBkHV9QlcAdL7^<)Zj%9_b>b3GGi_wB>-cw*+
zv_%0=T&c)ad5^{OD8}SHO_mspARbeAiGauaC6x!G@eNKWBBRL7!ncqs_PJ#W9<MLJ
z^It(DeR0(|Ut?Qv&$<_89D?cy`5!JpKH+o=T6iDha)Wl@#3wNNA^gz&qGQGdubs6g
zW)h#|jf$WHX8hk@Rv4d;aG`RnDDat9P>CYMWg!ZH44|L~j|_(1IyO7SE>om8;-G8#
zrf1oODaS$XHz1Bxv#S?&PFzmY^uJKdKT(GNMwQ1^lq}y{^kLQQs^^+Q@i9n<Tip{m
zdp^Q~$sUck+;NKPmkr2Z!)cGmVo5I7>XFE~3lYaCDjJKp7l3O(c7$*Zrg6P#Sp#oW
zR>zj@itAMd)$emC?JhXP%4Beem1#aKy<HlY4bgOS+(?yGJZQS#6gQD*0c9$@*R<3W
zFHA&R+drRLo=QfC=~MJ?n!c6tixTX=H)Hl!a!SU$D#W!E5%Ke~a@rW`+NkYBwViPa
zBC*ES&s&#U<8t_ZZfV)D>_e7)aV5lHz#*?{xhk&4F%8w;z0uZ>+WKE<ar`h%DUIHt
z4^Q1b6|}7w*Dge^U60JnBI8`d^CvLG!?Kfjh?S>gF-3kF-}yJ<Gp%jS7gsBCWL{l7
zC%GVkr9ZD)r}xHawK$N6X}SeAP5YiNnJ<`lK8YHosEI@iq-Y_D7Ew(tpZ6{I{oahD
z;<&-!?Taf&_GuZ_w&!<RGi?YJZq#(3nvOUHkyw4xXYW6JKQ4#w=XJX`>UvOJPh1Hx
z7(B?EeK;Fe<CunOY>s1b`072d(Q_R29Djx5zw0#9`vRBlU0=G6OWYT>zrsJi>(tSW
z!Cenp@3+P&_*~ibWz!c;<a5pO>#1+1$Y;bl@(Sm^sw<^Uzw4uNYoj?kZ|lj<`d<TO
BbwmIF

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_927195.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_927195.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..675bb94e5f9959298bde064c25527cf466c63004
GIT binary patch
literal 14170
zcmcgzdvH@%dcRlCtC#hbZTTs`z+mGT12zWC%V02%#XuH9$SSg~WXo@^WFF2{R@q4h
zDKNF%-5sv8+afk;ksDf+&Q9aBnZ~=*PD#77tBc&AxuqS?EYnW@GlA`6|LS+{)s=)J
zW0KwJnbEoD@txOq&iT&w{m#)p>vU=i+|T~*&j%mZW7w}zM0C1L;K?tg7<L0AF%loa
z&Iw=q9L~ojqtbIS9Ft%ke2A|}EG&HabnUZgC`L+1DJdi6q~gaiQb{WB5FbDr$gNsJ
z3T3`t3CY(kA<gTRij?PiH6R<nNcB(fJDLw9LO)@=MM5awC$%2gkRd-s2$Q;1(u-C}
z*RPUpD4gz9lg77YA7mO9zvomcjI1S19&E@`pikyi(k-i`TUSZ9c{F5k;XJRFEO}dg
zPW!djM=2@w;iT$?Rz@i)SxGw}A?;+@fMm`2DlN=Uvb=D*S4LJ8;Ij_6Tv?a{q`;jb
zuY#-sPUwNMdKJpwC*Rei16nhXb!5%k_&Fo+-<Vw$rYm@3{TFCK9RFeu_+NyOSB*RZ
zyha(P-FNg``;RzJ9X@x!dF+|k@n>R3IBn0#Z@qjXL-~aa6_;@8vB^=VKj0eh_&F5{
zUvg0s{x8tZX_RvKF%Cb@;YWZ_=^h{R`Ud=*bl7u+QbIn3dO)d=hr|h|Jayve;nU6|
z?h=TJ4$&ZS@uUli+`t03m@$;uoMIe(N&JIMez0T>N=cToG>;MuYK5cav{@7cLHioC
z3fhvTEu(F8*_0f^g5`7xT|Nc<4OY+<w2e=z3?LTpj<(a4Q@{b*mMvRFS3;SpDFud2
z0Zp))uK{9^hU#(9)wCJalh+@_sTGdIbA9LQsi7UT<%P;+$HAAYrAuk+3zf5qW8llx
z(HLC=hX?it5)$)DN}+!=f$E{_P%28#q^eLVD#Mqnr*VNISB{jTk<)6vbnS}LnrBKk
z<Z-3IK}DNsi&qlJ@@lBSp>;<ljw84(pchF=Jg??LYeh+0>0;Cuv9$Q@#-jLZFtp%$
zdcD9&fiBqi75>PF(KuJ~rxEdmR-(KqSmVJBEBQm`QP3;-qsW%qm^Xp~hZkK>H`3X;
zpf|w5s1T3qVAC398|cRTS>k)V@tGQ$SLwBhU)7svDZPm<66f+OqtJ^v!4_Hulm;=r
zk}}f^qnICjX^oz@(9ia>bq)HLR?u%QJTB-5>{(KY`Vnj^(92xz7P^^kn*w1-68!vb
zr8m=C^5Wa*t@JitO0=TdhRouc%zg7#bO9A0EAQIrb$O$+<;sg8y6KzOPPdCIehO5|
z;JPS&Jt)KIb>F<kV8=I<b=$w8tm~vD^!61pODnD<x^so((TO?19bYLW?Btata(i(n
zT}(=byW#xHKZEj5zs!`-JLnF2=N*-}6LIWHzT~%yGne}oD$%GuPJ#HqzCdRr1xpW`
z!#Oz_xH94SPqE~jgp-ZB{KK4lJTT~?C=H@V@~;u6%Fw5XlLSUM^#nCOK)FVpK9ZBU
zN#8|II_ewa6fVj&HsImpQyyyE&ndkl<E}v4W=<|7%OFZZ`SDCn>o!hGjt4lkD=<Fl
zb30um$;thJamv%Ui<7&Y69I~o_X{64|55b&`LD8nY61l))HMppG0F%Yr}76VAL((r
zMsva8Y_LBsIF?Oy=V;wyoH|oOKky(I9^*7(`qad5egsMkP~(#mPQMQZT|lj&&|c)E
z6Tm4sc+M$7O+rCv7->u>IK~;opl{5{*T@k<#ZXY=^-=x+PdLhHbL~M5e4Uxk7^fWf
zdi`khLZBa}gijfUsX_ema|)iHeoo_ZyC+8{M}YMdhYxeauoF>w0-OTPztffZ_H($4
z!}~dv*qO_mQkVokM`UKf&q?}0uY(xmIsJn^Z-7&wJRzv?jRm$i`#D1R0+q}=0dd@&
z=_bs8&|l!cf}d#UC*KRVe;07C`gd`^J<)P$oEr8|xZIwWL6>{j6&M^JYX*gNEYRYo
z+${mm=tK*|TKMjbx&pwJO%qp~kmQ8b6c`_Ky2oKnZQtD9x_v9;a5{m=IqadvJR?*;
zbP??)|9^m@8p57#!Zf<+=14Pxr_}b){)gJ4>0^;&j3cEj4;^@9Fx^njC>fmDnKG;o
z9e%hXo-VG9`Pkx?q|B1mo07H$R^Jdhls4I!^Q@^cbmXDg7QGVN!4_{yXjA50p`&SS
zG1C?+XUm#d?WWLyw9b$;*Rs0WxR%v!2_0A}GDk<)qMG+l-hSoQEAb17rd0iIwrF>#
zC%t-(&J;b*>KyOyyM6f9;kYYNo~r9&bzPx@OOP}0t}A9?23T7|yp*+VPJDa5`{$1N
zo)4W1SJ<s5SlbC!*B3gN2Fi;9<;-{E4z_q>{0eL9m~UU$@=wNvc6P^+dp>r@8P;}&
z)twC;d}OlRSU<C#IT~+DmbHIEeLD5=)S{^u#tZed{-FQHz{~*Sij^mntfM_;>v*8s
z9>&vVOO$5KwXp%#+#Dv-rqXvE%xPvFYpRL$v8IOjwnW|E;E8o}yXVic8xP#W*^P%;
zV{cfIHkG_<WV)H+nU>fg*3=Zgz?xo4oS8rU^Vaz@>{dj%RiJzXlh+gJi5_Im##L-Z
zD{E<;S1h;}wY^~+O{|bN7<bH$!uTpWSWCzJ#e1g~wS8fH$y)aAUM9fw%s6A0S!+w8
zm$h_-RnR!IJvPObwX&wxM32Bdc1!od6uSj_-4|A-&35LMco|!<g*9)PS1!nY?pjc?
z9f$7iWjl@~`_8lN=UMalF!4yIpFR^g6Fn2#mM|~swuU7Siwx5Pk%8!7?AwX9#iI7G
zbjf0Wx0NB8_L*<R23gCdgo8D=C1AWA(2lj7IsKDX<_v4CkK?ShG2RChVbzk!9KAHt
z6su*8^}sAkF|(bu)WxN&d1IJZG8QxISz}GCpEaz1pl@RJO?OV-JvVnQrSAyK(uDa3
z)QyWX7a7-0a+Z95^X<-CovF%A30bOmD@$yBN3-0F6?HDZgsCjkMUf&Po|>6T5jCN`
z&smSpU8!f@?Tg8TF{oH;E312ksaM!7upm#sf-JKBk&CfJ2iT&@m=ShF>{2}NSAFqI
z?7H@O2fJ<utJ?_+Tv-$~e(#NkgnC*R(M7$m=DeR1&5s~XM2M)3F~)446YHPAcE>mz
zWZ{KN9^b$qNKL=nHRAD8wU9yWK)DLa6PTpN+@P&xT``1sYjz0^;;Y0})eVfshO#zo
zmJSmQc)zk2S+$vr@8LAQCbcAwTCyg!G>=-kCUq8ef}UW7Eb#L%u6Kx_oR$>ICFRHh
zd`A_?@?;1J&J`{~L{wf0)L+1&4P>pZLJ(x0t)d7MVW@>vzD)#`0TJE=3yQZvF|aQc
zpyx?ZTVUa1Ls=Uy*BO!!b>>y_<=K3Ejq-)_bLACllrNm0D=%52eBu0DdFdME3+Ly`
z%K*NU-%)>H6}X3EwBi)js5w4mKRh-u8K}NoJv!+RRQG$T0R;;91}4WR{ZsbL-YJw<
zDr~1hStY!3Ss;f(whSn+3et1Y=k`!Yk#^_rEwt8<-Sh-mN<WmWg(gK{jgvT9FQQG8
zXEz~5dWDO?nk9LRL!?Kx0i;P$9bO4=M0Pw+MMR1r0AmV4$)KuHRLaSY9XP!=r`P(C
zxTp?=C>MM=V&{l!w4Zc!O>NBRAf)HQqzhO&<#F=*i+}T`og?EQi~L;>5QtGxe>-^p
z6T%)6MbnyyCb~BoV2;D7oFba;T)g|n+#B<)^W;Jo+jTP4a*8ERr3r2Lm5BbaTw1E2
z+)$P`9eAsuQNrVOykgr(a5|qK6eMw0L4hB1O@IjidZl}ilY?><xIzt~3f3bJDN7(M
zc{ROJO_3<ggFG+tveHvf=N03V0a!kqYyh<SJf0v>N7M=T>=9T~x++7ci$H!Fe*XQi
z8vZwgEh{jsZhCiQ_oAjeDeFvDcBa7Bl&3YO2byYDQ@yCENy_#l>-MC;*VLpn#s``z
zR#Ua8aU^A3$=a?I_!>uAV|bvcWHptGn(Cx%XR>Bz3VcoVl14k-9%+B8JG3`+Aq@=I
zMzqnsh(5IUk<K*zYUEYM!Spe<IDVIyBR-LTs{2^Cs5=-s_*5p<Dni{)2~2K^*0HkU
zG@%N&M-M_3Q8@~?hF$RCPa@+rO|<XE*_pG9>-(>!2|YSYqZd*{Dbs$lYql%yNR>6A
zrqL<pN)aVY!_DT|<~W|RZ&)>1Cv^0hp0VC6pDmBMepHnvOlhkvZ7}|(SSwd7+cB*v
zbc|mQoH_>_a|AM8sPRi+6QGcLe8kVGb8xXcD}P}YH1I=<`bo*xLv(e|-+g2b(JdmS
zK|NhW^HzJ%kXJ5ydO-UbM;m|+!n9o6wLv4TrS&L{l<<g)o=2xlbbd_*&MiP&vsXr_
zbkLmFa)Gmq)(qeQ#0}n&GVwIgU`Rd*t{^rk7jb}~<(swe!u4D8u}|QNMr^qodo2PZ
zv;mfC<GE)X28kFf2E12CD@05ro693$JWuj*`9k<(31A|MJ4&&gU_LTp61kH5(#3fk
zKmv7zqb+o)IIn=sqjd-F8NRJmYoRq`&8yX#t<`${nk*leDTJ+A#94l(4}~xvYnIXq
zqp+ft2-qO3m!O@tYB1W)hs%K9a#+E@eg3p5;<;R&#}&IU=6oMCpK^ZI>_Zj#=|VVf
zbyR*eSL~I@RXl&hh1!y4+A90Kw3XG<V7EQ99sys6v*rJJMOJ^6KX6mR&kWrCK;{}_
zuK8+tk-sEdiDp+;1?a0f;pT*&H$!IE@scTr*9R+~*{>Q}FV+D2H3{6Qf;*`yR0G^7
zRnuCuXZ`r~qP*2oKu(d80UT~VvRxf2(Ca%nndHdz0ou>#U(o(2v|2+~(KUSgwIFw^
z`LXbEn#W2hIoyxcB5i4`{`q}^EBY7jQC(hLb=hHL1GFPAzag8P4FI;ULYO?<)bO`Y
z;>s7lLC5uRz_=@cqbuhle-!p?h1meywm8IEaP0bh8Qc<G_s9U<1>IRtxR4CtwJuKT
z8}m}gfTR$EC{*15{J?G6L!oWVgSCwo3T;}d3Or5;psa6na+E?d2B_QQ$OtFrL0Jm%
zfvQIy8Zjro1Zb}Z3b-z#0s!Z_E>jMay%Blqkcad)PVNS!a)OhCvI)Shy5ASL<nw!+
z03xbKJl=o+`876hN`Te`sFp;?B_O$KL8a%zDqe?2LFzK9`U<LA1aJLRF6hn%$y_Sw
z=Cm0&mamh#gz7+xiIaj7!pQ~vv<Rso&Iu2NG-K$jCIg%XTomAwLc}vh3Mvbb04NG2
zGB7Bh*T4ejMb`+=MLxh|sh$82gmVNMAc9Oe84&qF??nIrCqpBHPNN8*<Ci)70;lHN
zN23M($S2~gxQ|l+C^_r_NE|d}DI%7l_GEyAQ+_lpqK^Cgub}^0p0xuq*kl}PK|9yK
z9*#c1Caa%^O@gKuI=*BoW;U><I)L5)npDrInH_OETh^91n=*8T4yO%v<~yumW8B3W
zS`x=u{l3tlB~!)wlH00Vs<<P5E>+zD;8N(wqYM-^6&-p1<@nb3&c}{@V*1qnv3;?q
zJJcfrRVepBy#BqTpGZDcf2>|C+8^q91U<l+&e+uFrp*998Oj(hYp4VGP2UOt6JTSf
zV%uk(thp(nnfJ0Ub>CC5Eq$!HFHAht8>cTtE=4cL$VBa;ep^`fFoP>@dEa!~e#;*3
zNt{kOI_G;*rtYxvIhhgVvIaA^JuSkZN^is)J#%eb=yf)-q_adXvAW7w9jk2s;8kl5
zcSJp`rYzLGWH3V?I@#i8*03pIWewW^=#?q19(wCg_#D#+=xpre+h=c`z0-epXl^J~
zzkN~GDdxYzl(M>-SoiIoTRnI7-R+(0P1Ut8$~v-KdGNb)1)-XUB8Q?R^YY9{>@;g@
zd|+*6t<BJ%!MVYdwSC?=zb~cTjWEn|#vglS_PeZgQ)0)0jcx0>cbwgPF8Q4SwsnBD
z4usW@N-6*)v&X;ldCAW3p|ruql&}UzcyC&7h<09k^I>V(&EnbOm?LJ6x$aPRFV9_G
zEbWLY9@?v7MW5SSqWjYJn%K$N=IH)({Y#0~Th0W<)^DFbd%x}g*h%}}ZTQ9JU$uYM
zo;>w(^32)A*ZUv5KFGd4xOl`D-T$zn>gH>+uf@0hbn{2MKHRlnUhw~{^xnQ?-^tGo
zrrJ)WDo)QFTvlRbFD(;T31GtUO>BL~{9(5409$+@DnkpLm?0PobMapc4PTnE(p`_u
zFzbSSqY#iiH=L1KhqMpgcJV^$Rs5>rs&Xv^kHm*TaPl}_J~FpDdZv6wk;BI#ctjzd
z5br=Zg7Y`ZQoc?}FZMk=_l~3xUKUYC6r>Dkhw$PdYqJ!>&H&>o^bR6-u1nT#33|7(
zr2-G<)@(_d*HR%HK`Lq$L0K3NE5b^zlvDuDCl4TWhj%oOG=en(7#}S|T!2<H=#)r<
zzGSwpRq~Z$TYzXjzkK2RTzTp9%SUi{f|!{Bz|Z)8d!>LGsg6^KiBm>lJ!XNg&D}Xj
zW=_JRT|Ca>&L1CItUTm}tehW8Z(tD#EGbNwCa4@gJ_n!^4_NbuFn=8Lm{TZ&IZ>0S
z@v>)5mmI`|fSG$h;71k=z)MS7OImAT)U38<SuQoGmoceIE#OB;lYv`gbWAsD;NsUe
zN=-mm&@wKd5QV(Ak(b4bI5iI-IY)eOprONz@`Kk%P;)4ZaCYiF<av=-i#*ibyrB>f
zt$rOHpdwJDduAw90to&Ze*Owj@qQb^0PLCWjC5Yx$+X@_@K9^AvNZ)hz(b`~2o_;w
zw$P#Q;6tM&dM;LyGHwX<rZwj15a33!z4tZsNm+eTQ=dV4(kf%LgSjxXD@iyW7MZ7q
zBg1LEbvhUcK2^$!6oC1tF-QhXNT8fz&5cQ710o%bjDCewXL_J5XSL<bw^Q1>(1HJw
z$>i#%T1;NbSXfyl!if}&A_iEIA-aB5m}gB;C~dCzjZO)0j{)GG=r(36U|LC8wICK%
z7cMykwZ$z1wuuh$87;Oa{|*x1#bhGY@ci2hL2^=N*m)T%LTn6uKgdKf@|Bl`u!m6}
zR=7N5NCqtyqR2@BDYBwLl7KI`LN^rf`bZA)G&}x6k{9}dV9FH^-j!wA4=VC*C9>EL
z*h#;D_VaHn*66V)pP=MlKuH2DMI}uLuj&e+`Xb+gDv&WRMyaL=THuR@)<6ix6x8PR
zUPEii>^TAb0J9{hqjjVliJ4XAB+K#P^RQp>>t!ITm13C}=zUSHeP}zgKA>%|R1o$@
zD!>+lIpkkZDft&w2Cz8!mu>Kd5RJeH7B!FZ1x>U`us^{TcF;z+8B)?FuVg1sU2l|O
z*M0E23%_52m51&%2tgv}8EA;9yp_h=V7xU3GU_iOm6P!gLvr$MJtF1h8?wGQnGfC{
zG@7XoQF2a-@scfT8VS-aib!UV_haP!F?h&20&4~VuACBV89pF|m>?C8BDz0AbOhz$
zO%js&Q;7P}k$`043MW_+n#nP=!TI|H>SLfxqaqaW7)eLV^sdORYr7fOeN9#D;O*X9
zz3&}O?7d&Nb-w=7#*Z8ScH=$c{m$N`tT(CYP3udh-;BJ;xKjFRc*FpL?~TYCOzX8b
zV`^5vA#?~X_jx#cee6)OwE3qmfArdiuie}J;K-}&kyjUW=iym^-V#0ghu;lLA6o6q
zwwpU<cf>CIsOxj<hVX&3#SZTt<V+`PX?S4S$XYh0EX|N?E@8}!hq1Hfx(DV)5T_})
zweC)rR6v_08^VXvwyM|$*47m6d01Qy*X+uK@$=%gs1#jux6T}jmENwrRhht3j?MSY
zo6{DM`Zck(xHNuYj)?7IOIsh5ZevTgrFa##w34~-CneFn=`u&m6?fe7uw_jNDQj;7
zUAC$w_VVl-@zZQoYxGdsUJ=7**FkczojLpcH`5#27zHTS`<cu4OV&TuVD_5FDy(D+
zglrp^rI?{=xjF~6yYoes5+(!1pF9N*{;7cnrFrlLY`B#UHWm&Sq4^J9vw|x}dq<iT
zOtLlV!)bW5`!(v5=hQiXDy6xnwdbK9K}Ap*B!a2{dI!!s5Uywgg2?$GBZPx$QckOV
zco4)7Y(K?u3Jm}ro=uW2$_GJEEBGsSO~3<SgWCmwL~Em*LYt0%dq$24mrv-d=Wl}=
zwZd(Z5hWOq$8We3DAWfYk8i*eCG?z$H|w?iPGs0SC&s~+=Wr*d%RCLr+)ycDe@%`A
z{C=dt<?pJDaV~UhoT5DLfOt_y{XNkBH~jnv{s7&{XbJT`B6R%yTpxo+55~6r)cR4y
zhZT#&Zn!&IJ*S~9v3Fs^V#6_3RvS71S4Kx;4p0lMo8aw^6&{e3-<wKV&V`OGYcZ8A
z8eEpk^omdqI^NBp<NUD>97H??RS@y~3k-Nd{R2uc^IW7xAk687F>e}yM}Cv=fQlo;
z5RW-=gljS|9+({SaEkr>V}DLM<O8S$ZU_AV&*cd!bNhGNGv)`t2mq}BKO4Ma2RDY3
z6C)m8ALFGC&mK-AFxELRK0;D(z+r+i=|cS>c8-pdlOvukDhW|^2KYx{11w8%9RD?@
z{Z~x)Z&>*fZV1_~R=riVL|DTLbRQO@=G&4dP9{kYYx5@kfn^NaE7>Q3{iND2NoT42
z^ZQ<aikjbik4m~p*5*l4eyD1XWG`RUzGtf1pX@u8^mtj@Kr%21RQn|Rd8%&7vP!N~
zd<hd%@>EYqB+DjDLR_`KWnY%;!|}#t3ud<7XqstSwq~L&t#?P}MzYZ(_%ZxfO`nPR
zHj%uTC%0i6n(mg*m4C@cpGYx@_K6v_V&SuUCGhxU6n`wO#7$|X_A31rz08LzYj2Ls
zjtJo`+dn$`;ZY%c`1r5NKPwl)ZZH2`lB=(tf9w1cIn=Sd2mT&rT*2-r9Xpk@H6~mO
zt&7BgEPo;SWYV@i(YN4OB)Y*^&?&%5SA$ZWB&wfk6wt|{EGs(jb+C4g<{R1>?XpgY
zZEU{VG}rVciU|YLqcR4FJ`Uj3xPz&`*)-d<j6pE5pZ_e>KS8m_-M9@mF<Wo$oZY#M
zK`>$csQklnKDgld$C00n@WJHkZs9xTe=s)1j!iv5v`@P1xcTu;OkbNSs(VYrug3oa
D6DI&k

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_93329.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_93329.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5766b73c212db350dcfc179f885baebfb2081386
GIT binary patch
literal 13579
zcmdTqX>41^neRQ`r$kaBby>1(owjUQ@}byKZ0oioOOE0*wo-=Xqhy_wA1NQoBbF&r
zglvK}l^&+j0H&G(rek4E7XiX#3&iPmQ3s1fIi^u@-+BRIYhdAjN}K|V{@MLz9!XI&
zWjRfO#g4>zbA8{;d^7W1GykH~sVNBe{U4vdQbkdJ!kJXiClgQ15{kM;u@p;>Q)k34
zeTF7^W<qjCN>dJcl;BB$ieGjk%e+nBN*11xuhB~4kdCJM%0R$MbC(ZES=rmtG*%^p
zdpBkPCX=MR;OTN!4u1+($*Mk-vT9bjpt%L}!{NCgw9f^h%jiSPYM-kQU3yf{2ccuv
zfEbnyQ>^}%^g`Y(Mx5Cil+VviVb-ulxp9qh(;DRkYm^t}E+5je=9QIAuds%-yiJ|a
zvXyL+gBmRnXOtPU#ST5}ijucwXY!y`=^Cxd)+pbwMmff+WXl0-KD&vnc$+?BfE{8;
zkIQ(4uHXC^52W9o+(BeiIE{Z#f)HJ!c#5ZIXo?zzUv_XO*9U5)*>x0kD+%F|01gJ@
zVCfmv_rfIQCA@TqIY!kp{f}{%^%8+`JK;AjNJl2!FVxEf>E)4~&4O&g<{H}}ewqZy
z<&hmYYI4Z{Xd@1PIof#1$&I<DY<5TEd7FLA=05M7+-4hgOu8FgoW0TQn3!sWTqEG!
zWu36OC#J`@PhGJ>k=4zOxSf+$yOVWT_wL-;yca42i<Na;n6^#2M`j#W0yI4d*vB}`
z9Tf0$9fZhBEot%s)&AB+btzJpe%OA!XRar%uJU#ywE2PE{v*Kwq$yuiZ$j!#ziPhG
zGT#zcZ-q*YJ|OYE;63^Ta8QDx{m9XdUTa?}(QnUWV0e;b3Dpo^qulAG8%-}5#v%rm
zPA`;tot8|xrG{7Y${FY<10u&3U};{NI>a;3okz=Sc-3>ksaC=1cr7q&>PHMq4Kc-l
ziI-t4ypEO3z?^U$t`+M@Px_}I<m*7>Jq4jy2O^)>@{%#=-(%o)yp*Jjydi6(#;no7
zYIsZ;bdx6+BI5%GMvrH~n^<~5nqu&tf_0#1J}(I+%YZ6e2a4hIlTh*uC^MlgjEyB!
z@K|^Yq+m>*A~zgjG4KVc9WjWhQ0yt;i$^u7+Lf<6ogCGslj%eX2XCH%UCb9^s(VWL
zlD`qAGQN~ABTPft&*1~`7@vp7N{DVUf)q0fLFROycX0nD4r%#7GC@%sVKNF1uaTgh
z;+(^rZNfUj3UV7~n;dos(s8GaB`2K2r%q4|L4kW`bNvQEGUet3waacBcet!Lt(tLg
zPBBUM33R`pbO9p)7IGn-a-~x<Tt49A3>c|wYJ{~;h@VM;;U?fWDX1=3okK$|hubCS
zlf9(!I<cozR*vTg2*mFsXU0h7m^V3Cfp!V>jG#)kweDC+HVF){O=bkX7vX!c$+ZCh
z3HMwp;&d4G)0}Y3!A&~Gxfh@ob3@lpU<tg`w`xk4ceT&o7p#nH%e-9=wfc-)LZuH_
z{1qQIU*9{oH#87d#7lP|)edj_+7$-V`)vVtpl7x;co`XL!_5)H&6Y^#=arEjw51gp
zTD^x8=AsV_!Ooy%b}V!VnHwTZ#CAs!E%^LG)Pfq@kh#s<pD46^KnHgP6|-kUFQCG$
zVJ<Ro^HNm$xh<+d+Yh3`gWkR+U0$Hlf708XNGCLg_bUU(1GWAG!IPoRk1Inxb5^8j
z@OD0eS)THr3LFdWowbH{MJ_zh?e%s)RI0Bk{EC1&_yd%`HBuF|KTx)N+fv1<U?0k_
zk4U2(50nSJZA%7Iz&2|RHqB~b68Xi!wppF`@Izfy=ww{i@K(3C-Nz)<+N;(6>Yp;#
z)U)cix-@7*>WWYkQdI%bo>8}?(fK&v9&aC)2aEIAi=&MYaajMXmkL@@+8jH4rVB()
zX0Cr#u2<0Zyn6J+D^{`PV=RN}89_ZcJz;gZLA1IA6;5BWaZ@gGv>qSCO(a|;e7H>z
z33M+&DD2M3p^;&iAQ^L9;a<d*tvGrKNBeOz#j#h896oOC735tfyZWuYcD$!k0UvE5
z{{q0NzJvTTXK+f)D6#^(BL6Jww3MWH8gNU@ZAi$aB=IsnKPBlr#p|?{^M-WW5|9nd
zSRK$q#?qcr_?1nnc{6Xq@({RZDWotTEpublg9N^qFC!e*l*Y1wF9VnjGr->nZ#VM=
zfVC5_maQ`u1@QhPjXdRi5noPvtC*DX3QswVrULNh<FX7qcwMprXb9=~lM!s>Exh5m
z;L@}paFu+;x;+_FBPI}=K+0~+lGQ|~!L|IR)lys3S_s@`o)&9Yv=LT{sm`nMxCwM+
z7PKZ+<Ea7_mf(I0TAymeXG7<uYCP4v^m{<pWKbwmUreqEpU)eHm}krC1zC!Qo?18N
z79_wbmh;Axp3+GL=-2-h_Ff%d=u+`@yphnPe5{0m8t&&AqrfsQEAX42qJ24EhxhFm
z&=?!03(8wbUDH#)4zB8KYQZ>HaH$s5sWE%Dtb?iMnV94mn6|Eisp^@S=nPB^*)3t8
zVU3LJCeJp$fz=Yz%#=k!$Y!h}X5v{P#hpf<4fzaR&9fbP*I;w*|8NYA{C0jT;b>d%
z3GwXU8&~C<GFBo}J|wBZ*Yi90+Vl>n&1ju_U#j^+j$xTe8rC6o(zEyk)ByHXyKME2
zZO-T=*O;35rpz(HX)q>v52#k2&3qMaT*Ym0X%%0cE)}^5F0JNka+KBt==Wk$itu?X
zJ#PM$e0t|!$)|Vm3|LJ&SM%L8HFf;1)toa`<Jp}J!^<!~$ZpTeaVb6(o;?|qF3LIp
zc#U@RwYl~`zdM(cX0+^S45?GZ?^)2Lb`ecoq5gkR6lAt&Lle6g@7nK4<MO8|glU{j
zoqD}!g>jhoJch+es+qJPW8GJ#92_?91-0Yih}~@+x4GP)9^!+-S#WtCDIWpn%an6`
z#D0atE6Ww)2+M@WSR~cc1fV{jm~9+L9ZHbe*^!HaWMX8JE5&&kv5+`y&<HYO%5ivw
zi4n(PjY*KOPPZU)xt$zXd3azjrg6svxQDFnD}vhQc211gtu~geZxLiRV&KWni61-u
za1|KeMjWNJTdo6RRwd0o+r&z8ES)@;kpv?z+19?&);=ldlBJG|wsGs&>g;4LeVOaV
z<LJRr4UTH@IEYy}2I{%>+_=*|<^l_GB|Rx9hdJl;6gGA>LnEBaZ56Fhtyt{BUakp2
z0gz-2%CV$1D#)=ZiLFiYolJhmz+}c`aS3ulC6}OCF^ye<I&B++(r>fd1$s=NZGwi3
z%t~4cYB7Ub3QEy>wVo4XV=%<af&!Cb+<8e*;>7up;qwA42QGmANLFF9y3UUbxdjCo
z7*I5sfFY6<gQ3~M(dQa-wE%h6GI7@_7cF3&=r6P;?cTQlUjzJHwIDXY?%nY$yLYt}
z{K#OsW|_4F4Z$OEL%sLqhgtb0g(-01zM?2$D)1>2W{Y35WGV_CL8dyKEf19;^ERL6
zp~)PW3H2gNW27u@+V4G*&{~4KL#?Q^5ovdLyOtFCfZ>O4J~S3wtDUV4Rt8VSjnzIy
z0#LQg9`Gxdj3%6eE|zr0z#!69{;K`P;rYX18{n(jk97O7A-r}?;fKt1)to9+85)ci
zH6vZKw;Llm`9WLI9qgI4hOVH(9Z0t$vL{;gTRK{M=fK_9(9V9O>lg73eJ~J`22ag8
z!v<vD5*|T?ElAfAt+`w9+Y5IspEce)jP{*Cx)XrbSQavWOow-c74sF5HdMJgx&dwM
zM#i3dHL-yc_fMUU4V?a}F*Z1YULHZl5pQq8P!hcOOIx@gG(7irkxEptGvYzzoygF2
zPkzsR|HR3Am%hr2of$@lhLK^|`|=~Or0e{3fg_=Yn5pp-?$en&GY{15-i}8wqo%-c
zkYCg__~?Jr7y`Cn12WfyYvbmohxx{9idjWa9y%HB{B>oxXWkmQbk}g_O;p`}Z*$B#
z_8@=U*Y>ca?0W57ZD?zx`}3wK8*RCB^zLx%m4PqE(5`{lYl9C;UibArEH1rnnX`mS
zA~l~IqMcF8oyNO8_iSJGqUNKqQ)eC&pY^@`$Wnam((I++#c=npn<8wa<>t}o@ICso
zG1PE4Ht^~L%Q4@fL}6)~{ufYTUAPSuZ1Z&`EES=u*}q#fZvj#-G~aHy*%CMJTr}@N
z<~`zU<K}i>PolUoG%&XzT!o6ZFIt+BrTLTQPh0M^#4Rr_TJ|H${@-w4%zQQzx4evd
zDhtk_!us%8RPX}y0Q<58nYV`DM1}i&-H%|`)y&qw7Viq}j2mlx9S_Y#*M?_@gF~S!
zpPBEp-5o%+J*d3r-cansYxmC%#!d`=<&3>yL;bcGI~JRCBG!reov}+Z%M{heyvBS>
zQI<1|uLtjEjM);Z32%-YxBEJll=?tJs2CZyAmtXHJOSBO@Q|3Q!YX8JLdqswW(sP<
zG%BhOzm6>XkaC|-lTaE1eCPtQ)P?(yc`s7#{jqwvp3-kyZlILl2>KzPFj`=-jWr9#
z+r>AFBTbR<czp*lcEGV&yT)J+7KcuKJP?tFPoe7FsCYLr?2f8nH9POWdhA{g>O78K
zIF1a*VN}NA4=RJlgSE)GDKr2bg<B%KJ~u>K(AF2DHnjBsG92{DvGYjjR|d>M({=Nl
zIV8WKnb$0C+=Djmi5Is-hyJMST3UNJYu7yYKx3x{W7ap&sW)PF7M)^|f&DH+*ZFmU
zp`bl1|D&>z_@eA-=LK+2Eb56{hk^JV={vG_^!R>i6pFKhM*%JfCHzz@<59DcAM1Tm
zpUkHplCaXZl^%^>&q|1!W0xCaBq5i3#;^BF{jwoR#!VL(VA%o2ki)eBrg9RuM>|=y
zPCvL8hF7eQiI=ksF#_e-`Qy>K)9!X&LoP<(z77;@hL_-x^K!rl#z1yp<!R+LcYWG{
z#nbD+=dNFY*N&#$1S_Msl}xe<;=(fU+GqDN30EySTl{VMNn=^FA4Qs8OwMtv&@*>^
zx(8m#t9ZD#_v?Axg6dY%1f(glBe6jS=Fu?<W{W-lS%JlFhNL?Y?m#vD++JwG?ZXk)
zrtQf(0*3b~E_{N|$Im3|xk3Fj5BIZp2c;Z58Riq#(zAk}f%fDoF4f*I8Ir)LB>gK2
zD7bRv;$11%5AfhhmiBcWZ_7}Kv0m!Jn)^nt*DLBy%GPn)#5vZse`ae^i^{%Nbv18q
zC3>f8KP1G)?_)$eAo_1F^`ZHC>0BvX8A!uFKy|J0;+Gy4S7a9@iZ^~OV~RHsK68`d
zUIth}&SLw*L9U6o!%!l+z~w7bTJb@z=+yNzSPLT)^(qmG3~UBFsGo3w?7l)w49<s9
zVJ%RQi>f>4#~F!hdZIp$bK!J8zA`=scghn}oWtdUn;E&NAak!^;7S~A!chlqt*~1~
zYiYG}T#ydKjgmmyMO~jz7au>Yw7&5Mj&V3B61sRz@^U``n0MjldIh%BU%XU8pLccG
zKkV&En9QI&icuk?^m*Q%KT8?yCU57m5{p8tMQROKd;Ps2bwNW2<}FO$_T2Q`9r*p}
zFHb+v_WS8a$$CSu4b-9Gi0#w!cg{c19`MmiI(@+CKN+~-KkMy&BsB!8kkk^SW2IZe
z1Bs&YkStMD9Bc~O;B#F$rwkc>p$QG#I6Z$lZ2RbJqNr}Ms1X%4MrhD6W4k&RclDxO
zz4zMUyZRHgbvLHxr$4$Bsr)4$q($HlHBrMCMV}Sjt^CK*^&1qGU)Rm)LbiBOUAX4<
zwwv3cbbQOcM0Hc@zb3J<Hc?Ui=Te=lcDal)6a|~!*ZP`b((R$j8`bmG;kHoqM-7lA
zJ5Hc43+fe9%AR?|@X^Jh<H-=jYl=8HfTKwP18vg*e6e)uNP4h%1d}5>q}VS!&5(>{
zir8dBmS&j+Ng4}0yBGyeUv|i9C4;*RDfY&Je+q<>N6t$%6fehVR)+lxx$bkZKR4Zv
z0zdB{{=Dx1m5Uvx=9f$KxYNG9T+gmj?A4>>mAR?A(!!l)(W5zhtU!6}vB(Om1aGc-
zWePv5!gmT8qs`^R%K4xOgha|euHu!%pQiee1he*a=#is`)Mz~L-UA+;QSA4}gx`*6
zz;_ILcLw&JN5!jhQJQC1IZ<dBR*AnNJ<@wc#mh&r_a-Z3yk?Q}igj8jKomnOBDS>s
zkN*e4@p?vN&5ALHV+xr1u-L)&gUQ6w0Z};gK{*k+qL_FGXED|5^T26z-UjX>>BSMp
zB|%0W1PD?axSnuqyDZ4;AhV{x?c|)EWJQnDk1;q9gCfjckYewOAOnf8vzf>aLE*YE
z?QqOE>b2ZYakHO61UL2EF!(fZXY$L|p(*_C>9Q4fgg>|^(QzUrE))DfY8Tf?0Lk+t
z$3+Ktc}UX9vM%iHC*mO)B|RCdo-}a_(C8oF=fc_n$c20Zwrb%<TB*7!_se};U|(EW
z?rlrx^!UpA-Pgc=*BXg9Xb($$y>aa}Z&!{IFr82MUk|bfBuN)|5`5i|?++eB+Kr2v
zTBNBB)8Xd0X1lj@Nna3{_D_anNLL+}Al=qQZ8Op~gT-|&uHCz+Ifyg|<C^wGO&8L1
z{m$|G(Jx2ingM{*<XzqC-y3-K-Iu(b4|T??XZ>e`24W@AzbFp1-RPe04mW*tIAWOZ
z|4sE5TR+=+&-RD&U!8xTI|XydFPJ?RxDYrttGcG0)qZ&5`q{a&@%(z2c%CWH7U+b!
zPXEkRkKdE5%d7VuO6bhNx{z&d8`9NbKZc3)SsZGbD+^tLe)z}*RQp04KL$vEOvDc%
zHpR6YfB-PoR)1@diEB!|oeA(H><(7NH03dAIT0RY6}cO*4qO-_d-AwLQhaGfgvWcp
zKGqT*<hhR211uZf<l(Cm`Lpd4xOSBPRW=ZlW<}Vx0a1`0QmooTxzlzEFHNzXPU`g~
z7@absPL@#@BkY61I<@%p3!a0)zRbzy(gJogEdW-=lEMjWE)$!STyT9~obcpLq%uz)
ztHC2UHP~lLUYmTb1|kz|wv{|y4;?&|TdxgR5bMkoD-u~DHB+!P!9EtRmWCMox`NmL
zZLo>LUc~v{eJS<cf5LT>0xSc0e+I84{1fk6!bCxJp2KOv2j7KM@*!2z9+CY?fJ<=$
zxCPc`h)xZ9Gv;M0r-1N8q9+To{`0o+A@M<pQhbGpUpkEl^r#@gK4B^G2&+;a?#tX|
zjOq$Ru9Ui*!3srAs1Xs7r=8rV(DZk>`HLbS%qzUg`}wyHdE30x38gMT`&ICiC$He@
zoBlVk#`>%28=iSj^yC+>fA;!=yk762CEx~U{Ab=Bgoi-bZ}|78ee^?vIWYb6GGAN5
zR17}Yfne2aYp4pDY8Js=W!$o``}RvWUy2*|`Z~aM2g>t>VCU>0ID-mnzzbKfebLm6
zOwFI{{`93gFU3u5zD}$yx6R4G*H*OEcQ|1w2_6TP{IyU6+R%ty!Mme|=;3G?+S!fF
z-QdwHDhs+pZJ{fnBdDSY6*WapM4O@`(N?tk5V9NsH(q7kjgtA2g|6FuH~Zq1`+SE2
z13?;h5jc&s<%#NTH_pzV{iN{I4R<!gs}HPHhv+#~VDP?n)7N>Fv3yxV>CMYVN?YJP
zDtdV`)mSVA3I75o9`G;l;YglsiNcAchu~V)4eiB{%aa4@Y_b=RbRB#&4-ZMd13p>C
z6B`*Xfk%`{UNZ>$+avcVJW7u$<IyDWQhfS&$*rVn4jw8QuO6X28eSuwlf5tzxU-sO
zZJ>`3<MCxEfr~97_cd+@T*ugLE{C<LUPcZLxx`{8IV_urkR~P^XbY9NpaVynaD?GS
zdy|H%6F60HgQ7T>ykOCuvtmsFuGXMJpsj*VG~TVwY4_ALT%3SmIz8@ot)VIuh{JMn
zoCB`zh+g4p=KcwKd<Z`mK3(wo*-!v3bfxa9#;?J<C(s?*Bkq_7$^+iEXVlc}jI`a|
z@}Q;<NjH1Dd@bOBul!a^6>f)1h{CAiZrQz=c)=NO-?ElcnFF3>nKV!C?OD#Jv?gyq
z*=ImY%yu3xLj<(MM25>n>^^x+fl%Q785fvDCiFI>g*<Wo+sEOp=QO-u6O^fx_##v?
zI^rgeKLr)MSaZ1@m!~-L$Wc(*rrl2W^dx9z9po(=vHr=T2=e2ONf%J*HgqAb73L;{
zP=ZDzv31xv&fcU%VUOjaplqFRveV;^{oEfQ3rvS{Nno2TOK6(@6Q%ukO7|aB*|MBs
zl<$<hRq_oZp$nc!C`P-CQ$P~2e3>bsjZ4+FHwNbimt~L!h?+W_`$hq|Bm^$sM==Jk
z`JIZlDwdRmKKWH}&4ygjj@ZDlm}3Z;hhy$(AY(hzft~HDPA2gkTXE5yu~%M=u?}P&
zin-i?tBq+VxH?whYJZMaT(tQfhaJvlM~rg;s)I}$LDkMIYvellH+o7{^sPa~Fv|sL
zLJZLKj%7Vnx%q~6Ub~z}viYg3fn<%Ttchd`QrSY1HB)8f*IVaWmn|e)M3rv1-Z0nj
zO)<_AN<JyXU7B(JoAb;@y7B97+C*0bPFx$D9bBd$8FoFvpRXJ8=z^f^x^_;xOhGby
r;`ZQ8XaUK)g}*QRvWz5SXMgYn7d_cgLYuyBrSdk%^;K_a$R_z;aNLJ#

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_942564.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_942564.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b1b5b0528b0a1d5dfbd67ed8ff519393006f1b3e
GIT binary patch
literal 10905
zcmcgyYitwAmhSem?e0$EICe-dBn}}VJo11*1_+NNyh0#DhUY*=mT^1p#Btjp;AyYS
zXs)n_E5*6XDrW9TnAwrW46G(|b)_}Zl_ooXmeu~)^f<b)dRZyboj?2w7k=#SuRT@m
zc1$pYnYr4M++B6*oO+x(_0_4<{&$u&5|IAo+BXAtDhT2)sGuZsCiCK&h9G7Lj^M}<
z;<EfEFO#^e8dYD`kc5hGlS8;AMOc1gI`b+Gl{gir<}{p^({cJQv>e4zj|>mhYseTm
z<1dg={cIW4FX~703;OxBW1~6kJLpXX+E!(C&AgKgnvI%cGwVaY)A}efG+xtJWcrQ$
z1Xu7S`Ka)rN?v8KmjXGL`{at;nxUdxik#<6Z=e^yfo^^Sy(B-q&&XLm)jZ5}th_H9
z3<OujS>41?NuDv4zJb2(4fL`%(97L4w?2PeAH&%`)m~;`6dUq$aI!R;zxL-)`_yGH
z$vz#o5qd0u9xL)obAQYE8M#X6t&rQq**_&O7Xe-rWwmd*LDp42LyGTyb{L+|2ofHZ
zC`X|Ol!!X5#I&D!zoW}>w)65)$LUu}-LI6oB<A=B@1H-TaO%&VIn{a2(e(__ji^&e
z#<7V}htKcqcl#s*%1=7^ao@8L>Ixa{GlWmika5<jCGxaHc1vUz$mw04vA)56pQIjk
z-{8^6cmsMMIOJ*cKmh1k2M;A7Ce+%CKk5;(`q4~q8p`YrrHtMj`AGFJ!x3D!2Cq7Y
zw=9Pj&2d!{w1QdLjluFYcy&TamUq2i71jr|1QE0e>jYZ>#vI%rY!IxNw$TrBl9Ny_
zYz%-J1Z!5dLf8m06#*SV1b``6iCcgY&`>*ep;9oTc5=ppw6!X6<jUA_J5_>RD0wHj
z>^!jCCZSBQ;Bi+A)ob=?QRabVHw%PN1*ahK8x=?NsnG5bDAX3J6*i+9RF|nSC^f+v
zfs|`k<TwqQy<k*$giWiYX{9Dun={HhC$3-?O8Qj(tiFcwoW75=$~=Nw{DlfDN9MGg
z&tCL`MJPq%P^6Xj5h6-{G!Ls+CsYe{vOZ-_q=}qX^RMKqTHPvaT{U<8FtUtoujxdG
z>DzPK&vSAJHNv*nR!NH_1F)w!-6Or?cLaB=(NZn6v>i*4Ia2jP{gC1*DXK)X&gS!-
z9ohX{|JrPe@jhq})UVCAFlz&if@XDX#)3>)o+hDDXb=i;nFakd3QbTh%9fkfm~CTr
zwz)dmxrS6zRw`FVyM$f8LPxt+>j>rwh{55#7HrO=iIv*jLcP!&06gXlXyt-?gk8e!
zoN|k>XN{5N*+0ta2`#@|7USYhv>L(pge^H*wPp<`n-O*h?<spNfYx#gSaoJE3No%B
zYK>5vrD7zJZ30WwM#<l%G{i4N*S)_GUH1tpVXusWS%hR13l;XQ+UKlN6Wsrr6yC9~
zNnixP>)I-ma_ZqNaM<RadbwwAMw`NZVT;iE$f)dklDLtJP~};rXEXUE>gaABAcUwR
zC5`j?ppQpq9uH=RC|b^cW8B@ZGypDwX4L5$mb4!KfSc!GsfcF?b?ZpphF%4d%0D6*
z$9Ydb?;Ldua+1cy4PKMfql06T&dEE+`rVQ?;O0F(N#8f(ar$@dl(aHg14RzxJ(6~C
z4AIq`$1iDpeh=@Kj84C2bkOB+a$Ma3N$Yfs`*}%wRerhf%jk1CN8CP~H{dQ%mPhU`
zZ$S@aj*`LW=Lb2r!#TQ=9nNO2=48jRRM!fxYfLg`TDS^&Sjmq`v_cPz59by@qM!Fn
zj5~aTFe-Fz<a4Sd^*Crt3l9g30r_kw3mq%jF{wz&4vsl+ixMR_41#puAn)^MWSEuy
zpatA!<^_x3>Fe_WReq023@#5NZ;|(BsKc;SNOwL-hc)a2g}Yo6qY?=#@0#FYggRsf
z**7$c7SG|7sBx!j*v&bvN(N<Y*FleHW$?mKXkl<pi-{5~6R;F4_P}7DU!nq_ESy7@
z0Bz~eD=;pRS0z0jFRVx=16||g_hAF{9RT%K{+jf^XBs9w{ICz^;cgg!VLAN+p0OR^
zN{{&)e7vi{?;ag*fKmgDso62=^p8%A)Q{hA0LcNS<@by^Tplp6z0Es!?`eh_iItfg
z!)|`eJ;GmwAtEdA6@q6HB3=%V1kFzEi0p{<EEp?79Z#8psne0uG4BFn4;}rfsCY&{
zt&fqh)>P4!Q0LQC<#g$$_@G$YFs~^|7Z%T3YsA8u(1~<$d8}6~t_yWNHCv-M;`_zY
z`dKDrJ`g&UW=dnb;x=*p4w0!39Zj=E^X5$=yD7nlOmpby5?dVY6<PaN?O%7^?@Tyn
zZK>*mB6~1&EdAyh^SW58Xs(6E*|IO%?{(hoj5`yylx>g5?g<@3O<wrCE#{9MpLWD=
zh?Yi?ZJgbctp0&a)_!+r?n7}`x5#$OJ@kFv6W7EpPJ0q2(YiG;C|X)Xwk26JSMq~*
zuJm!klTLBpd67LII`$Lj=|tp2bR>Ri-qQ4^;_u5JmoG3!LPwuMe@%C;&h$_B$DDE7
ztX{OYq^$2PvU|g1y2uvu##_aThS^%NVy{@V_fPHLcRuc%b3U=9S}%x27sA@K$r|;4
z-V>di-Wa!wrcGg8+Eg0TeC~|trz_%3qNzHpdulSzlunn%tnt2C-5<Qk>e<Qf3g_%%
zV~1FC<VnYZ=?w6gEi*0CEwMcb-K_ONVbZ%`ZVOXs^ZJ?n)BC^R?_IxpJ!Re!rj|;|
zV%1-gvD)eG_>frA7&fF!HpZ<9%{R`3{(i;mKGA+aEIEM48{##Il5f0;()$gwJz~|K
z<TlZMR4h3P%~Gc5hw*aJvQ4D60V`Dm#r2|PyGU&hQ;HQCGDGn#6m^8PPp#{)k_HkN
zX8RsE=Gqpl$HH{lYM&XK9{cKpuP@!dl(N=`>7`W)iF?JOEug28@>uhirdZ4L`*EjO
zQk!TJ&Cu79sVsJ0G*!i2Vo@D%6>o^I15-?#6-|wx$^!G$KxE(!KNFY^qzbCy7ry@R
z{)dnFZvzhksm=Suf_+K1$acU=QS6=K8SAt)ri+s)Q<X?ng|$mmL3De(R4m?-*eez{
zi&QhT2(;FCt!S=Gbc*KPNt0;aCsO-A(=E3U1^brw5rrku5wV~OCImetytCU=n-7Tv
zheF3;EN`j-6S^o{qG;KiFo>2Wk!_kio;>n{J$YPgJ~DShY(68hXTWF~^Y7ZC{^)U$
z0n-wh%J{{^xj!@|E{dCXCrNShUXk7xI<llMh}u69o>ImsDndoAF-!d1pQ)`sL79!P
z(Y}~FQT=DC;RWCVA(7W5y?4?**gpV>ET3w8HB|7es8+|j{S*9{3;eBYLPs0Eg@@oM
zzh$^(oFN2aD0>&r@)1fz!lyb(d_oH3JMa+sZt}g*&u5097Fs~g!>WX8gSyX*f=<wK
zB)SD4f5xXj3DHtz1fP)p><osGyRj-o3=w0W3TA<@a#aFqp8Mh>wc-f{^<hI8q&dx}
zRFLu`Hw7nw!Z%w2ZmoLo=hUbVh#e3^*_)%n30}4~>l^2<*JbO;HRSWxugL4ykk4Pg
zBClFQK7aj+ym}4!{PipHnunQNBS{GQvqYV~n>T?X1GY2xSg({#xzab_9Cufa4*K9c
zbPYUENjlDbZP4ZB*8{UF*I1D`peA3StLHzc)(R^{NC84iXla$JMb0H8k9kJGtT-Ix
zQ23F%4m3GzsDdeIx^p}=bZ-LJS0^9uyd4$QlIHZ$b8Rc`r4Q}D%20@R!ds$RN1UTq
zIp@K^w#@0zxxEw4F+cc#4(vJjcGkC!c)&689fXX`905^Z3q1ZiL_DPmrsxPA1#F3R
zi>2FA)b>Z$zWw;Y$H}H7H+N7x_(7`StVo?rQ%v~7Na1s>x=hErKo)!R*o&{DBzDjT
z?g(_-KjE1GKMt>fqy?YaH6UrhmGR%;hma6j1MHdr;$RQCj^;T;bE8KedSoF;_M}x^
zli)8-_{S&wlBOS=>Kt95SYg%+JA7EyN!c4U!A}A|3b6P}!3_Q<L@XB&3_Eowa%h3J
z&1-D)v@J~+FVdAFUAaJ4&1<UW>8d4~nQDo&+&mI$3wZ&Bk<)bZXs8{I4w{XcqRwgS
zXRY&^mie-ll%^%z3U0yFmB^KtJ=PPmCdhB82UL>$UjJCXz#a}Ad#O<~y3moAMnYR0
ztrj(<Y0408i5^3zix%aZ!cKT$^fuk5qdha1rZ2^ue}5%S6;2gI3ZmW=RTgWxcku4P
zggv!>JIG;Vcc!Ryv6_23?(RsCsq(FFB(qaYgo*atE{s|3+3won&fiz0sp6MrqgJ<U
zC79ySX}q|SUfxVTSFT+nAjR<icR*bW`Z*GVv3vl$5!{2Spc){O#Ni25js&7XFF_5!
zW){Gq|4dTgeJC3`Rcc^|X#jXvKw2wkhfsKVRpQi-GzzrJ2T4#5aIHgO22L9Q(*j6G
z28L6<prAl;c*LAept45-CFp1r)I{<I0DVfi%x8k0c<-ZH!H~BGdgJuSM)QH?LwPX7
z5W>Ax2|id+3eMyWvSg34w}#h@f-$d7;TTg|4+0MkM3BG1vkB5rRs%&TGXi|dLO}+B
zk>3zX0=o&oS_N5w6{w-oRfC5jr&d-&Fuc9KPYuXvl)*m-g-E!`4~}Mn2=#|EndL*7
z%+eu#BXom<33UvQRLqaVL(<{^fuy-M=$@4HP6#24I<NCyTr~;d2Z$s9hX>*SF2K)m
z9$XB9uS3;(pLfFT4!G+I`0I#>{3Z-qI1nIz9>LdBpQPy<ar!0I=otL2^B0k{23<)d
z(kp4bju8)loYye`zL=zw@3ublu`dg5I3wd5`wGDGw}I{V@bjGpg@*_Lu&Mo#{kIRq
z+J2-r%xgBx(;E=&K;%FM!e}NOh#ZXd{77${*KC}pH>OR+(V^*z(8(p4@AjcZx<aHY
z;>N_uB$+~fWtufj^+tMQ&Twyvt-N^*;7^ri3!_z$i!lv&q;MNzOjBKvu9!A%x@(Mg
zBrGYW0bTnF!yVDhkuGS$SP-@R&ilDNb}kwKzg;v|#m{|X|E6bFlh_JQtZ3YwREx&_
zi-va5(4I0JS){r|s_RMH6Fx<Kut=R3sq+gLt}I?~iWdOwu7=u{04H@3UDzA7-)2H>
zX@-rsqGZ?=Ifgne2z$f+s6FhDTm<hKTyR%pICd?ezAMa<;zsbZcfysCHbr;O9GE^3
zH>J#*;^)5Zz27@)|3}9>-8`>pmXVO0bZJ1nN<uyZ#=vU|1}Zf<Z+{jwhjL{z962aQ
z<a0?e8fn1k)qqnA*ca4+gR6cGArTEBq#k(`Xt(7<xtx(?_y5X3l^qwPpbZTU^8VVE
z41S~?obqBOxaw~o6X1QG&)o0<CZkC}A8G}E(3TSnP}a%#gUe(-d=&J6(^>_m^C2YE
zt2tek0|oO|C3Mlqq97@#{$Ki02}VJMgWuR1Rvcd$`&K|rC3{!c&jP3=z_r5e7J@Pi
zSQzhQ{Mw9Y)#!oQ1<0Wr-?$r4O3%Bo{|55EMI5hsWs<hb0SL4b>*PN{!m7ze_%%t?
z#8?Ku;Ec<~FB!aOxf=VX{2k!<7Jj~p40K^n>yCS7czXCp+CHzb&(rpFVbRoNWb)>T
z(9v)c+}5LH!~mQ9EhuKB0Rw8MY!MqYH99?-GE|4!K>#H8M9)U*7Y#PiVEf|yy^rpG
zlrn4!wLdK^nff^LajYrk{A%Ls;Qe5-=le^KFD(=vgAiAVHFP3!7Qp1}&C_X1Y3M|_
zCwvZI=G@KhCDx2xz4CYucwOw)MHXM*?X#EXOewZwk?j&$1Yq72+k<ZKrm2&WlhHuD
zDeg=$TNarHk!hGEXZIz&DW+|a=@gmHC-x^jDdv3uFs39r0mvHHiFD1prUrwNE4#Nq
zYiNlv61{{B{Mm>Ms^5Mefsd~wTvl^Gb>=~*oa?P-jrL#%{H*r0IUl;U0`k8yIN1y1
z2<n3RAQd$Dv%VVmaXRqGDDXTo9$?VOX$9jT2_6Rx`#{&tqwkjx{GZ^Q{2*lE0|7z+
ziT1l8Ozm>|+>WL?ZRRkC_&+z6`5w@;2OpgHMgZObj^3l_hHTcj4bsVfgeX@~gZiru
zIgrd;b;zM)4_vP#(jl>#Xl&++f;P{@h~MW!x4GQoTeklad0-x%cf0(`4ULZj@4v#&
zcLN?FV#!nzI{6dD;)_{NjEo+O@A;$UpErEBVSzdnYI{pf&92$DxvdK|r$x;s*e@;7
zQ*rxChOpE_gw>MN&)J>?QYDu|r<WPRV2uWswVFa*==gFG!I(qc*u+4CNT+pb9_joU
z0R{d(A{1jS@*|L!3gtQ1kHCkP35Z!sl#=7&FL7`!bx!y_{)sWSr0c+c^^nv<gMP^X
zS45xReSMtITmjFy$9&*esX>)^CE&(5F+Sp!mj<B&){I2UI(77WMz{wA9;U2Ks&&-E
zO^mn?^8W<P03w8M8BA(fO_Jna2<ATt_P+?*GDWCNA?vM*n-xoxC9FgDr8uA5m9DKz
zHa#&tSCgfu$R&GK!ue9GGBhpgKs6aIU$Wz!xZ2-=>s@<%x3+fv&3fdM@6c94m4tC^
zO}0O2Li*~?udlap?X6&Se?3eRhIKDH$SRd;`562MlDbuXvwT@~k|Z0KO9+T#Z=c@2
zY{5mVQY^*AbxN@e7t596dR(*-1x3g|{p$u)e4!>(%!}i=mlGsr=u;7;<<IE~vN)}0
zZV5MqWi{mCivf~a)<PbZ9ZIJnr<V1oL=k}2t&!Gc11cE_Q^_)thJB->Z}r~neZfNM
zc{^E5?vCxg*Lt^gnSku<S^S#Y{lxMgwtutDU+i7H=n^lw=G{Y!Zm;O}&Ubpn4*mt=
zeZHlTtOf70bsA(Lo3MOqdtk%ar2G4k$0Im9f9Z<+?i*h0<HbIZ1>P5p<)ry}D^a*9
MRZxAC#yjHw0P)K~sQ>@~

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_977481.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_977481.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..c0b7ea9825e6090edcfb963b5441868739565fd1
GIT binary patch
literal 10397
zcmc&)Yitu)maej0cG*?7W5;pG14u$hVhBkG0^t!JfrMu#5TKierq}DZoZvj{P<BXT
z%G+k9TWxo@CQeVUVp=1$Y4xhjfJE47EotpY&5TAGX7|VBj?u)bWmiazwBlbF__4cx
zcF(PH*(U9f8Ro}c$+zzF+;d;&eCJ&MtI=p6AW-3-UpP@g5Z~jB5{%izv)`x)Vus)d
zjvOV<$zSpuDdkmT>T?>BP!S$-SfZqKmcLRt`(hc+aVky?KMhB5+MiLJj-zksZ>m@5
zV|ax=Dj3C3e4HWm5Wz8Dk{mlk-ZCnq!#qqy_%(Sn!zD$^&C8UREK_b-rrcV*e9*v^
zzOT8N9a#CE({r_)%|i^^if~lsVFopv{e9{jt0(jXSI3n@%gQ1xS3!Aok@AXV+E*^q
z9!BJ<iuW00xoY6V4E(N!7B$O^R;+x@GVPVoiu8fiS_`9DxOH63`{X$*oIY!A%}Otm
zj`}B<fxajEAbt|T5sf1fA_pb1`(HnP;F$B&k#jxH-WPIxFXWDi?4gs#-#DSP)SWu<
z`jOMlV^83k5KlCim`XJGCdQnBpliqz5cN1c>Eg!&Pik<jS|oc#vQH$BiIm$p9^|1!
z=l1&sy+Z*}J>t168hKB^6Lbds&X9-q^E&9oV^(=Rj_^g}8Hn7gAW{OZ$5-gte`xV_
z4dPizVHoqZByi--Y<+mu3N2N+mK6mp@idnNff7n@X2%LwuFzI1*m7;F1iMfbq6i{f
zEvyo%LqH?ET39XErLr|aJbft$mBN}3%wDkP`mPn$K%ccCm~#l)gli-Ukb^Qzr&g#D
zN->=Re(*{y2^^W{U7}Mb)C#sgt6y#&QonUVnNTkAT`yD!^?w$HdSx~eh4lg<)PZm%
zK2UMQpbDfiA<&o(t`*kf8eEsH(JM9K27#1o^ZhtAUIW3Pv=P=V>CGrL;l_gXDI&;)
zQo%N;3g%XAxQI}{rBUV)ZVH-}rW{#7x!9@E3Ay<z{kw@c`Oab3J%`|s*D$<6*dWiY
zQeFq$2;SX|KUgUWmkS$1aJs|I1tS*`-a>=W%u%<ris%n-TA_Vo?k2P-+~n6<+PhYv
zRj^9u?zI(YsfE`Bld}3h*cY=>lN+&Z1$r8wSEBS<N-uj3EJ}Tj>Sm!8>fp9;I$Rgt
zQlw|Twq0luwuC?gakR9)TZPR+dqIAiuvOS5-Oo0OT8Ge7z_nF55&5sMX}Bz(Q&I(|
z%&wH>zY6a{$E){M&RGZ`PPhrqLA@Z~Bb;v#8io27ZVoPOjFX=n(-1<_tB)Gq{))0_
z$1BRBoq|f(u|$%v${7%LE|CRBr6#=V2fgH5wX}y8-!<tZbPDC1YNQF&QlXA0)K1wA
z6m|*Qh0Z+KBZ<p}lDRU!&q}IT4~L<ThoK1`&L+Xb!6h7|NO8f-<DUOi`hgDCjJX0M
zBIOTW@bElrBJl)EB?rk@;g3mF1xH20IPV|gU1Lr!Cu-cB_mZd{^ZG=si+A~kJR*hl
zZ$Q)yj{04}Et^G3F4jPn6V;qQ2t@qZ>b7kn6$tuyk7#fO{bOFY)5UR)-6G|}I$op(
z@Q25kO*91Du2D}wD%VRxNOcyd<MBP=OK~fGAjo?;kJB}lPmbi00|iN6uGF1x>-LG}
zEQRcFLrV*MqAA-#W@2bb-X|J{c>lz>GvI{=%fS#)Jr1i!LF5FUFxbIKU_?p!#1bXx
z^*JSqA}te!j?AE!4+OJ)*!*}vL86)c_(Yw5a4>*ZLrx69tYydspiR_Dl_Riocqs#-
zR$6YrQ!ck#Bu7Mg#OZPeCtRbV79R`X6k19Lgmj6z0jJl8_m`EaI0F~FgF#WR@c6E%
zm6woThc||jtLYFdjMNYYgZ}NJX22O5$2-k=E{dc(%P8!L%rWeURswv$p2UPZup8*r
z{59c!PP9(?`H{f5%k62s;Bt?+f*1V0O#nQ7!PWrpZVh_I##<rRiaCTC2gfExTgERt
zp~wm6E9mz*-F`S_J32brx3@u!Xp|c{M?AdGGs^!hu!td3;1>WdBgFF-f-z2Qifu}e
zX+ve?z(dwF)f?+g)TY_$NYCRE>x^z%mmm|J>5`_%k%vq2neuf>FDh@H*Vr;<>%6@I
znHwU9GuFz)d1Q4&jy){3$1f*$q4JhlHeI?q@_L3XPi#q6qpD4aZHe?`j3x7>>yU9>
zibZUDr00>TG(L(<bzhzQ`t0?ysf)AC>GgY&X>a6EX8D?u>ck`}X^0%j7_ITM$hhV!
z>(>?6D^hJKZ@P9nGH#C?d;~RTKJQOz5@%4^`jj4(wIO5M?7_MAUt8un?i|18MeWCt
z@p$AQrZFhDoc5<I$i5-vMP(hx*fH05ul`@idyQ!4(feo7&Nq?q&B(#W26n0`))ap|
z**ss``VD_KbSLz{us?F(G0<uIY+z<+dMM#aR;2A47mUqOGE-`cU!L9_r8Aa_#KB~H
za$BMgSvI8lk)<W7%~&fwuT7jzG$LzVvL9I+QVq!RT2%WOHsw(4Q2b!ho(eo*w?xUu
zR@+SDbYr67r>#+4rhIL(;pdiAcdGn)D=Ke`vKd=V@+h*kMD-6Xr8DKz<%!CqceWKZ
zbfJo_dx!3K|Ka4R`-f2X>G?B*sCy7q45lqZQEhg6Gi+JLRGw%-rlzNA(&%_(w#S2?
z_s1uZd2O-{nd?&~WZL$WQW-m*sWlculv-p7>zX8qEVaOPNkf#%*s2oUU)ClLAzOX&
zBC<85x=`t+DE-J<k$3~o&W$V%m~cs1VihW>O`byLrl=-kDNoc-uTD0gk|v-*GoSEN
zmtvRVt{HBc``P9%c3#_=wl}1x+w=|k8|&T5JC*6C&a`<qqIXBtk7!fek?<mGBcdCD
zG-P)q$>}}Gv&h<l=$4PPi(3iPrp4`qo}JRhv_Lx)3#IAGNY_ga*Yd}%_>np^*Zu3-
zxkISE``%^LegYX!z?m|Yed<cs;zP)^CTW4=ot#Vs|FJ(ci5ffRYEk1ZWbA}9sx!rF
ze<VDl4O4WCj@uKKr2UU{(__dRW5)O(9HYTM(wm;a-6ceFlHUnmH`bd<!0J;n84p4{
zLkPrh&S+Gc5QJhub0k*q0o76BM<lc?q?2uY9?HV1uo`NyPF@l?6&NV$9N5OA<qW%g
zQ}FR<Zcz$A3u~Yiwt1I?C9NnhJvA73a@r8s#bK?WVF*D=4`VxdNl<1qj4{EIfPGQQ
z=)*Z9Cf_KSGbDzK09pl{hIL@XN#hGTY#99iaIpgaMZ8Bj{%L`Rl>m?52Wr^>g%!``
zIDH7tO9*yvnSEC0R<Jz3a!N{B{jgrp4rAg=0;g8E7=BrAt)TlWdg}xo_yw~w%$m};
zBs)vFq+p&e<HR7qOaucM>zY%9gX!b3ZT#eaAxQZ2G$2tm=LHNf;_-|_Vo08F%RU*y
zu7<3HPFoz{_JItB7p`%SsJZ0zOo|#8#-k9s-UamOpYQ?Fa*w*k#(B7n&=vrv`+`Wx
z@P(Ry?{?7u&ZMAsXu>}M&^2&z!s7{f91K5zN5VotB%Kn>6g86)@kxoegm6R+MuMVh
z@}j5(NHO98e1=P$awdSUQvqDzotT{Q;)DwZ40$9J#N!kHH}DI*2jV0`WEgg8Yi#Ss
z9dXx3o%5RVXeTb|h;>};j&wyXW@tSYu2DX|GjTCZ*Me|`>TR)YaaYn7-Iit=BHcww
zjFxzJ?Crz>#ID7tz!L3=_r!V^m>R^?q?x(}rU@}kDNAa9nrU5NHX~;9H(T%Sy0a_I
z?2U9kV%X?JY)3qZn5qRs9WvCV4fP9#4al$oK)^uS(6*r8iu7B*@!TD`Gm_TtU(oj;
zea~+^za9A%WKTx+KQfiXEpc1CD{hNjNYo|z6Q`48;`Ftqr0d!yP=gD`7G!Km@w07d
z<JJY^K4jdNHtq+R&02D3X@PA-Y-5^rzyuicRA;O+L4Le<fmx53^=YONrd?W|P%ESp
z`suw%F12NroYl;>&1zCRuKVXKs9`56-L+sngsg|s)+3Q)8O9Rdn%I~O&NCb5H5+*s
z-XQW_QFn3D;~lyX<WJ)Q?L`Uji(1|joZx+KtO=BWjc!RR#6g~aX!wv>Ni(dZ6FxG4
zL?)Nj7`l%bxQ(RbGN9om(UP9g9fel{MOJ{up(0y?Iju5W$ZwYKm?6dtsz6_0thyuw
zbB?ECuN1fPT8Z*m1gfZB&?r)gB%+2WjKopz(_wwy(Ix05NlAc~qrmW1V}1l0_`z1)
zlE7&dYRlB?a`og2{fpP<`%^3QFJ7PTuUesh@%ns!^$Puq*XR3dZem*)0!auI$XB{g
zGWbJnT{T{x&%@V%MD_RrUcawqY$6b>0o%oWp=QD-%c~ms(AV(($-oVjsO3DDylxMV
zcZ#os$Xy6{@S(zkJ;NTTzgMl~LyrLr;z&$NQFjI2t|IU#28WZA{JBbdeB_}_Qn7<7
zn4G4sz{tj;7IcSJHq!VSoK=gO-k#H4e9lu4z&Euf5|ITl-3gjufOG8$ZOqzmV2BpV
zW@lh?OXsK`ybpmrkdPby7)S&<Ao{Ne@sKu6F);?@S`h4v@{MV_`PQY|S8iOHYn$Wl
z?Lm7^rdv-T`c#Hyqi190r<A%vE6JF=L&l*Ojottlm5L7HvBu-aAQCAsMuV66tGK`+
z6%2YuN1c+52{yLm?{KjE6<jai2umwIj3Y^LY5fzy@rj_QJ_brrb!<|0lxT*)Pg1ZZ
zSOMpi)V_W4;#4fVB>YdH!#Ml`tKmHScZ66hAz0(o-q_v;O!d5`dY-Ay7)?`WVrQ-%
z1eF!Yu%%dtU+szP2Lp{ZMEhe}thNA-f3$sGb9lb&a9VRXy8V&P82P)07W+)qbQOSc
zOXAH`*X_eM4*#;}yWVemA6SmYv|xiwu`xD&>H%HxT%%^Sk?!X-L0RMVNK+1~G1?J7
zhz%34PV~{Xs0(XL4E8M_Gx7eJx2E4pxPJO}hBi-`Vx~B#&x%CH7kjSlN!6ySnxUU$
z2)NSpszk#Vo33q2k?G0}e`&Gxd8vWYF4_s!8tIkw2@TE_2^>iN5O+?x!V+RkFKLf|
zf-A6+<_KdepvYB`ED22*P<>V}XkRY-L2FR(Jdxw0m=1uEiac!GQspcX!0h1mg#!TE
zNCRk>`T(Or>8Yg?CIz)x$=R*6!RT>Gn*uJ2JdgmF#d*kC9D?*<6Q)6j(8}0YzyMZO
zEh#Y+j8){tTF5`}F~OV$5-3<tSZ_tUbQABK0qQJ9uXv^cE3ohs03#|7OkCm07nxK3
zA#pe>r=fE$2!>*7u8b}@obhvlyrPW4gS_VoCvpz+gLmPRv*3gWz52rH7{L}OGJ3&z
zc!{ke7^No*=>Z^Y5=<b5^|Fp}sANSUNh=Aa<D)9UdkL^h@E+XBxE|m&79e?1C*2I*
zkISU~b&wJb66$h}dcn1}9#>%u&(}lbF!NJ5Ey=reIECdM{|S!r9%1k^Vua71f?`n}
zaF2>)2#7j8?~c2C9AI_QE9yed0m)2I4UPw}1)G<IQc4zvjI1GLz<v!{eFne4X*m4=
z*v;h&<~n4qOPlM#H^<th`eJ=cgxy1<b?R-v-?acw?O#oNedYR<x$WQW{dVsI<1z4G
z*w-XWr+txwAhOz{u4wzGmT1S-<Jj%gHXTl>k$vORy2mADGwd{*=uf`;^?TRfdr;Cb
zw-c50fRD~l60i8YD_)HZYa$0Sv@z=a+!7r{bXBD5vBkb%sl`sDhP1^IISO3G+Y;pT
zwx7HMg1NB?TwGl#*DQI%o$5)gx_)K$;xD&;*ZFPdee$38F6`<>yL#`tet+S27t*`V
zppG-B@vZsuPSoIx8a{1{yMT^6(U$1Hwk1hkYmAS?_xypbTT~OKszohfu1HjT*_Eh9
zrUq~|8cL=dF~?^;GriNjX+vG|3^Fv&s*!$6WPgS+Mvh2Q(~ZTV5^`elIh4SkYsj$r
z<>&z%3M7Ee!Z+BQxKoG{L;;l5tU!+x;7a`k^r(V&cuG*`Uwh93A7O1+7shZn=d2Ml
zAntSkfYmp%usv+xD8b+*!;HYdCDZotcmnY1GQqj{2qfVuNlKmxdf+|4?Fx9DZ4N36
z9N^)F^GTRNvM(i-4M;%(Lip~>w?w)$CooxZKr)J*1K7DQo3<=?=Ot6tkM9tVTN$$+
z@GPv*!T&BMMuUOCiwL5oM!qyQnK3`ld)z_k>HwbNzXC$H;TO0JQG|G8u|<wPri~Je
z>Q9j1gWdK`+1=H5RzINk!jWCRreVu$*S!r78hVjtU8Dyz|Le)x=PXgy0!O%PPIs^R
zekg4_7wHAxsoowBFH#z_HgX7KmC{I`bi`l<@tT6*!k<2en#b;{Cj`X&Ki~?Rw3<9d
ze4<&Nd&?-ibWOl}fk-PUehsdtT@yinaKh&iwFjg>r-<rdFFc9>unPo1;_zA276kb1
z=S4MMRIEBg<{*A8J1rOMkNC1lY0E^dT+U;eBQ2fC$cyeA@{e*i2pLRDZUwq?%+F1X
zdiL<YfW{!2h`{#{FRDqB{GMR{jWGT@QN2hLDoe!v;o7TfAJJt|Ek-;^es0VBiIel3
zXPyrrdvK8;_Nxx4;B#DcLIpQY->=HNYU9mIC?8ODW6CE~{SxJqszsf~sQr_H(67pr
zR>mFA&9q9jXeCtihm}_=7gdKzvSraml$OmjPd6`?WwWhqw?}V`=Ca4gUh?<Nzf<b%
zO7n85xt-Y1e7pKa^`E5dGc}=NpOxZKY`FUATdESWIsV4X`RVhE1SC^|XZW+&LX=m6
zqv5Hsj<jZU?1F9;(ydxlLk?a$rkpY7A_Zv>Zbs_@yBe{p7j-yKLw@Rb?D(P{=M03!
zw#eX=iO@0&lpRs_XJ*JhJxp3jQ)2xW&DWY22}sUTciB6vl)U%GZ_ob<n1RxH=Yaej
g;}^y*qp{1+aOtycm1ODDPQtt{ZK}V@NQdD60A_>O)&Kwi

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_991002.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_991002.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..dcbef44a43649d32a456eb597f751f61d480643d
GIT binary patch
literal 10974
zcmcIKTTmNUmffvaOWloLJPZaK*?=v;U;(xVKX9;(iC@GRCw8!B6rmO%9ul;KiE*n&
zo=VD6l3B#gY*|iiRpe}{B0shwSEVXsf0m@SD&F0XRgb8F?e$c-YW(9rGWN&reC+PI
z-D)8dVdCuUt<rs-bMLw5-g{oHe`Od02I=3&?+)*)!mvN0hLX(L%CllMhTX(ijK#;W
ze!0Z^aj8v=tNPVAMqnO%M4CxKmP@Ihez6a=Sb|ltYF5K)S>4}iSdu00>+h*H#8Cs*
ztKz7B0*(e&d9`&6KVd%x;J~Zy2d(q!IP30bh#bOL>QkJhhw%H1asqIcMFq~R$fF)H
z73epv({Ea*-@H!0rEveCfwjJ;zL#BCDf{($jICyiJ=jQb0h&tI=`UTUzigfUO&*FZ
zFFZC#vlZ`Y`e~qIb72Tp#%2nSzDh5P530*yn}b@m64oqw$(rl!u&VHSSsDv+5jejE
zRx`3TcI$h1zX@KmDaU{FRouSqDPn!kQylWAuc0iAvTBr(kl8h&uJ7#W6X%_$MEc0-
zH;$fi_MPbOa-Mmi)$>9NAiK}K@#fhq<WrD6n4J&}zNv9%Am|$M1VlZmPrJB@z*7Q^
zszm&Zi1DN*BgP6RpV(YgJ;LGMsNRE>JBiVWuoc!JKL-#O#q{G1-JI3%t(3S~$@
zafn{`Cdib8I*>?u7S<v07et$s(g<2~O=9tT+40b(4IqgeWO*JW+UA<XYk2Fu>{_9U
z4Pdo=aSnF#2CzE5gfE-XU|0^Lk}u^qqn=O|zlpD!fmK6W_$_>?)VDPV9FP-V!Ec=b
z&he!=+-iO+;8f3OF>D5aLN;jzXh9#EXB%(ht!SP+st|A2Bo<%Ytu)Veej8u>qwsP&
zm+)%x)+wNp`0c!A6zJl&!<l7OPH6iEI5oUh!l}u_so~4{k{?B1iNY(1zFHow4Qlj#
zg2e_2^sIRj&4WhyS~P;jvLkwBBvi-a^5`lat3n*+4GIijvj&?|MnXICc340m^H#oi
zkO=0^q>uu*uU7UE+8I=g1278sN~Ql87Q=sj4$j=p+hyL!_bgP;*RS1~#EXVJsw}z1
za}~bs2b_}6u7TH~^O%7*$7=3tbLZH&!F)UTEGCQRVeLZHA$rzu&m!I5CSJui@kI(J
zf52m-G7@U$)c|Qy+G`=Rr)5^gL%TPiwmC<wE{|Hr23WguSowQwSxZf*HGkJH+$ngw
ztaKwoZG0<Gz1rTx@8a8LKzy=##QV@*zJ=eD*WSnP<@ZVQ!GU%e`We47kJ<u?ns4NP
zHd2;5@LYv&9Lbl(*?vWGD)()Mfi-r*Ey>C=UVbg8w~pVT^uF*)(AbU`{?VIi>?g{l
z_Ma%1_Vews<Ov<%_sjAm)SAbgLbB=r-<~IN+Bbl1<@e`7@8=1?eo@ZQ%H0FV7v&72
zjD!yI2i9P<z6dLw{2{)KB}R9G;>_1#6}bb<RrrJaPX5q+gYrgk>}tLysLTQ8DupoY
zR1XIa9^;V2=8!tF<D!NQUY+m^DTrVtsK;G_QBmU$4tuz4|H@$w&K!GclyEpiq1`AF
z!7<S=!TE<c*SOQmifT9Oy&|f{y*^Rv;#|HVkEof3NuWR$LqOCGj`>}|))rACkE)@`
ziYnG0gt`12lH#H!05y+ja0UJ2UboZ5vi1&9<3bjRs2M;7hn|3_9SBH$x`CMqsTT=T
z4#_{xipKSUAm?R0PS^Nqbu?EU$gBEtz3x?5w@)-=XBYr(tk!)ZrS#8CjOI50V~F!l
zO*jKy*zS7fk*JygR%sw}&d5d>s=~s^9z#_iN2!jACZ+22Ii<-(QeFe*pa#8MASmIC
zi}dQ!Fqt%cwt&O%4-N*PS1w@#QhO9ELC*x76yjb0_$ikvm)k9BM&Uf)6^YSNQHySa
zb5z7#B0eDMB-Eh^Q75xMAd*@B2Sj233`J;VQG9Te!`{K5NJ@nh22?)pfJi_^JviZ1
zCIhC+vjWTI#eh=D0u4wPEzkkSS^a-Xe?Hqh?dL`V6E3%>dD!J1bp?n0zFlAk`-05@
z&fOgJj88N}tJ&)dwmHXL!SSiFrirUg=yJj}3i^Fcw;wK3d%I)z?iLsk85zhq>fwBz
zG436p5t+e(60kwT*z*pIVrF+mcg69Hp(1?r5nVKUCVD1r%g~kKt|unTP2HR>j>ivX
zOgqCT9<AR_?hrORGNzXBiN|Hz6JDXLIjt^UHd@l9b%L=j{Q9z`B7Rx0*u$qDSxaMA
z69<H{rWBpA9txjcrpw~3iArJfE`e?ecP%rfv~|0{Y){ex-4^b8%vfTV1;+N-k<U-u
zK9O{#Dl;`50@D#bzP#?pBgQy;F?umJ7@wRQNz^568KyCOym0ShOIf^8u+-hRd{KU<
zJmpA@W$Z@<%hB*DwDMaYcgBP9?m1`Ts!+09V0Nbt%m=^iou3w3yC2$x);@vhlPMYf
z)Rs7(*ddhGCtX5mbE;h^IVdm(=dUcV|I)cI^z|>(z5T-Beu3!^AAe$?XLm+-#!e?1
z)7IuMxvyp(%q$v?0RPRUvB|i7$y^iBDBDYP3rs_VST<W@qluckxU_~~u8(M+z-e_y
zyJN=_b$89lW684H&8bdd+n)Kl1;^L*g01Ue-y+=`!O^M8aHUDx?TVCRk=_%*A6rY}
zlwjSSIDglXxFA?|r78r=frxI|vMIhV(JyRn7A(!Fy7}UNn4B+r(7bR`Xz39wJpf>>
zh+jxt6RKJSYfEZy{`|L&`3n#H56!~flMhFQJ#P!vw<F{eID-q(3$Y7{y~)no`%`_3
zOnZcQRAibRiVnqw6K^G5xBF9*i$(1b)njv6T>Y^tuAAE$(MlT?%(hP*2{y4$Ff{-_
zP0cBrU}^=XSj*#`bNdtcTt|d_Y&6BXqBHS6p{P2dS}rojE=K(ctH9I%yG+*Dz#JJr
z68&XFy-ZRcakE#VS7NSs@h4@s$`a<!%Wjut%Iz6ry+GCj1!PgIF;OO1b|%{eOPfHp
z0U^+L5V&o%Cwm2JQ_2qP5y%4{XjdGVrFNwaGZx3jgraSqo%{Ul+ixc)Q;nJ0!$Q&F
zaQAYNb-fX$I5ru*gsx1sf;ci99gbazPbcwAQGK}khdt;jT==**p^je=N@|mOp~N9D
zj#T&jv2Shj-9p>3g{wl_S%EnV^HS!&w#ClJc0>=y-%1?2YfE(Batc&q_}H?pC}#T=
z|A;iql2I~N8n-6eeoyXv0&OPBz*})A)xRfqJp<{0iTJysZgSe=9U2ab+JM_N2A;Tf
zQqqoGI|9&hp5PScbA#cROQlegoaj$Md*2{$=x<^?Hj;Ctb8wgvR|pU%v0vdl{v%+p
zLXP-lSmy&Wq~VD|qb!aT^#^(w&8IR;hC)M#;8iajSFJk4BL!U9C>hlc60pxgCLK0X
z!2P;UDCSW}8zCcr&8prbL%JZcTBOA55ar-H;=C3NI~7_30tDDd&JoK3LcyvPLwTL?
zT(AQ8{Br!l<E!}E4e$$(ui_IM;1?cW#aC^BUwC{KUwsc*T##^#*Y-icsz<Ug?+~&@
zr)51?yl#&>|H6VdgdwD7KFI!t*eEg-#d+|N(cvjxOP&>vOxiUm3Kxf!q5=v$vdmf4
zAOYm5d-9Ak^sd0>)yi6)+lrbhQGKTCd?%N)C<6$pIvnPlP>STiG1vG2>*|<k$Ql8x
zXL8Er3xe6_lnjVKOVhzIKfLZh2UKL>5TFKHA^XoT_J}N+rJ_`<GZu{Z2xSc!vhn_v
zFRtCWHt(2c7dnKFbD8Eof$Uo*_1|k$<yy`Kc#`RE*Ncod0LBQcHZ<j*3LqoPH39Z=
zeivBK?qN{_MosXlbOxLkP4Et6Aax|W*lyqkP@fxREXq76Lo!IVpH=>;pr{@K8#<2<
z=q)Oi*lVxJ>?mKC3EUL`_rotx1!w<XVQi%cqnX*m(Zh>WWm;XCrYe^y%Mw*BP}Pgn
zwzPU%n%cHZ(X;!a`>r1gcZMfHRm{>+I@TLChC7!T>k_j?V76qKY9#3MTaOIJ*@kEX
zD0y3KFwyyW_wDXf=U1;kczw}uD17uep`x|nW6w!UV~N!W>M~$#WMAwk(nO$+^btqI
z1%)KP%^y;+-kTTaF2-HIxwK3gXN#gmvB?Zs9^dy#$E^;qc{VqK-kUW<4Kc@uOe}D7
zW^N{7`%MVZiUhtZLvD)KeX{G;F3>v__3L(9o?8tX?Mf*|8^b516Bc!{W(c_RuQc-0
z(EWRM7xMKae=vtJQXmMbNHUPg#0YwNYZ8+8Ayr5XK^j~NRN%-d&1w;11i3P6k^~7@
zAW79ZsjJ~NBghC|lhAjnys(!RppY}UCar<e@j70Mf*`DB2Id^e$?#P)b~Ol0@>&W7
z01;#XS*+-!k*u6rodf2_S*;=@HdsX;MCTx-Lf>#elSmZHbSOOEaLs(Nn4LZEGz)}#
zl$k?@JbI9guqN?_)t!Y5ykVVlTn$L(&sQLD1ZS>hbts&dM_-{}1u;?}AaS3(m%W)G
zDu~3alvtgzn`79|+u#<`JOy-10T-TzQujUxZ6x?vJue4d;0y}cH7}=0S!D+J8KOSg
z3xO+Y#Fix@uTX9ZPrh_i|FTgCNUK5381jNG=Rw7&STA_GqaM!$RI+iErq?*cDk&Dj
z4Wk-*8Fn)V&ky4!QC5R8Bt%8^6|ZMnRJ%}o1#%adl7Y!7k7owrD-d_^K~%vF%4R~;
zOo0~qnMe(IgVWvsgg|^Ow;j!(f&SJOSsB!#c_$#VGu$+)BhfG7(~|U;;wU09?G)A1
z(sI+VoUA6KiS&xTV?`}E)uSF(#JvGTyP_SWQdSU*0xT&<?n8i@g<oI}Zhja;A{J!n
zZ};3hG<PUN+Ca{~paCd4G865H_x_IBl2&g?Q(GSE4YQ@u(ik4=pED*ZlD!#ybNI+I
z_}id1Vv~uQ$i57<1MKo2_86@(HhL}2f^)ING=Te;?94Dtpi7L_h$nVMV5*kr8iB6K
z&~;06qd+$%ds9S)Ze5}e2=syZ&J5jwy!Vou)EpH*m#De*cCt>W+?_EwmQ3JL?VHEv
zTQa7OB~zzh>innL?;5^o$e4PNgI}^_0!Pc1uqXQfI(%Z;RDQE)t|&g4uw_g&;S*07
z%j~7-rMNlXnK0ive!upMhC2=Ou74c<dU%oPMn1MB=J>0N5ge(kc5qqnggW7n92aYC
z(w21HsTHidm%ziaw0-&JSC<}K%2+xDvNNh(QDH@;k16vKRVh%F8EQ*HyHxEEsvVi?
z*3_Fzd%A=@U70=I4~x^(nY8+hY-*rGcIPV+q%`2+VbA^>4oy-*&{&%!HKGQ$LCxY)
z<XW32pz>$SB7zaFVF?5YCUya}1cr41$KbvyCrEUF2O@uMS~cB6WH6^{R@DWFnidcP
zdY<I<pk82oDf+IJVzNk37Em@h!JvEjiZCNsp6{y;0#P5eftV=>zq)fp^@Mb=+k$)H
zH4022)yAt>9f;Pf`e(raufRe$sQJItTm&d$Li!pZohb-5y=>k~LJMqs$+Scg`sx2b
zk_4D6)DTT}oV$t&y(Ge9iH0uMDi(JQHIXzDHBxw3G;^K_k1L3zg@+sSxUP8Ylq{lH
z1S+9R!iqRGnHTUSr+isaq@8vSj=6%|8wmU&WC6sCJjo=>B}zt+rP6N!;xh#LXUIS*
z(N+|&yWSN(g5I1V(i_!=J0BT~XRm<(al~B-+bvJB`-`4CJqvZ;HGb2$XnX^raZK^-
z<>=-3whU91|7MLPaa-JVt5z^pCyok5J0PgCt@d;KZTsIfL`cbK96$!9EnXAvjo18+
z+`6KHN4uiMOq*sy(NG*c_s-jzj1=)>tdgX##CtQ$)+I)YSky1r(u^a+99uZI;7T*E
zgGi&zvnQh`V_e*kp+T%Q3v_eJuz;uO<_vvgp=F^nO&^D-AYB}r66nf=R-o$A>N@H9
zyU|NmQqKH*4n6P(COo8ix$lMCYjC~uzk?Qd`|yghtAx}W%m=smmFCl|1{T01%QHPM
z105l4NEaeQ`e4qeh3}18xZ@<Rx(AW~rI3Nu@CGj)qIe4KyS9fz1Mqocigj_nhAP}@
z=>k$g4+P-dF3_<KyGFX*(x(m9m;Kb?*ej_!$q};CvLl6TQ2E-TIk+B_p_?jcXA~75
za7uw8ksgr#XyKgj!%Glxr^sYO(cqa)fODpU|6@#z1p@&T3(33P)$;W&mWlIooX0Ia
zrZ#7wg-ZbJJp2OaS%$I4=Hl?lCnO`eqrGt)VxD`yEcvSHLDeF8INbS?k-FAY=R*Br
z-5Ei>J=_J})aiunIgOPxK`6OoUbj&Ba3)jSA3n1}WBSrqXhowoYQx<tCXBX*d!%ay
zTts}et2iY4pJMR0DDF1uu*h;^6zZZ;-gDC!d`_BzfW1g6H4gr22hO-_D(DYR`8=Zb
zsPtzQQ8nTXih6K|;q%736I|BoJ@4@a{G6x)R!XNKYJyV}V;=c<(BqdlBT_O?okRXH
z_6{a1!>rRk?q{dQJRRKM128B-Ebs>qa4RYt$Nz}Y|A8@oz$(GNCCuT{8(Xh$eN2`_
zwCHIkY^ie(t?6I9ljZ_KX>bL@ju1x)DBd8>67Z(<y~J`JY~RCeKN|MjL(BgY?5ol1
zbfp79p>zs1b(A=U_I8%&mG*Y-g}wbH>0L4F8SS5nG5sb8o5$?W%Nc@Lsl*8KM#c4t
z6`}{nn^uZ3Yst;VxyF?esadKt%cSNerCBaDE0pGDsac6Z{1{~UpQ=#vnF=H5XH{s8
zEz&S}8)X&WQ&qTeSx4XCuk$M^sKb{HgtMZ7I!JG5osOPf(V-TpwDhQDz|6%f2pe99
zmb!8I`sHT~w7!20x8OZ^e9tEbZyj90P(9TrmkWCymi$}gKUbzNTwc217B0Bco{=Tb
zq~MuM2d2{}riG*LK9dl>ucz=G@sdv}Z&j{fP)$yK!QbJf>O$9dr@uKZRnxz4$>rGO
e(%8Gg7$5`evz-;V_4|XEaeJny<~k)^|NjM^|2(Sz

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_995030.cpython-312.pyc b/src/temp/gen/__pycache__/int4_matmul.py_gen_triton_code_995030.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a4f8863a1ffdc7e2096dac9f2fbb4c0c3e04c479
GIT binary patch
literal 11463
zcmb_iYit|Wm7d{q_!dctdds4%7bRJ;B-^qp*^VN~j&0eAVmD3Xv;@T=W$HmmL&}Pk
zVM7-wLdHQvwcUE$F4lB5fayj+l%hbGVu7du7WF=W)s#X-%xbX)nm_(0SN^fPzxLca
z9FkTj%S}6gIQMbRx#ymH@44SOqkl6Pv;;i={MN6oChP?9CsdIhYo@SmQxL>0f+lEk
zk{A)+<OqrDvMKq9f+S>whaAU}BxdoA+x1Vkp&Bit<+OrU(kfd0_ez?gsb$S4@;!L8
zwDw!@$o^s;*|!=;@h!&rYjxAn%IC0~46H57+FJiyJZLuBERXKF)<@#e;Wd4VXG}Xr
z(1wr5W#cC@ag|}e7{yZlFKzND#*6Y>#4=s9OS^fOcFQj9*23*xEnWPs;*-q4(tAWh
z*U}{(V!XJ3MmCR*F7@aO_x>fVUU@l)_p0c!ca<Xs7!f3UWpp{zj2Z&!6(FsqfCiP&
zUR$8OY8U$IUFgM`6dc2=r)xkDGi|5$y-SW*;5=Kh*0EkE9s3_41ui~%0e&A5B>dE(
z5`})CMmUs${>7n}`_DTsogEo;UU;f@@u}K*L4W4em%sapM5(^?%Fx-%&hwAJ`w$M9
zp!Ls9IRio0m?t1;P<h_P%mf~V(NJhpJwpD&As5IC0(ns&&jX9vJ?;1U#sY$T!gHNL
zN--MrgFF?ZLqEtjxy#^3dJqv3wEbH(a(Y2D3H*#_Hm+1hZ<<_|eUhOFmF+<*&!a8R
zqeau(@vutPDjk$i#U8XOwm3^$$=cY;1tmd*s@O8NY5{Z(RkPKs4Y$<<VNT-1R<Jb-
zU<THf<=w~D0MEV!6+tWjQK%M6fEu(RId-;|wIVrr`XFoVcxW=GJCegHk;Kq`*3K3`
z7k73xm|KOp53uEI$#Zd+Nb|vSsAEgmQatziyt$Xtax5E5WYrQ!sDUNe{cx=jKbFyi
zSB8!yOCfGdU59#5U#3SR^@JK(lEu9_K3ain#%d)R_P`EqozxR*%Cl#IE0nde#a>x3
zYvu6**Xgn{I|oP5B$3i&p5#KiOwHCyeA0V>h>_p_IjmPR+sxJ@9YZbR-127Lg6*N6
zKr`HFFC}VSfHM(l-DwjxpKqr<R9U`*d0H2^3fM-rl~ygQCAbi3+k?J|JqYJCN8i4S
zUKX@snbjx7H4YuhlWmdgntQW{*b-Xql}XlnioTHUa^NsZEB}o>VaoPAt#L=57KNlL
zKx$EzcZX#&JJFo&e_D2DVQT;voLU<1{!ka&&UP(;=cF}gWyec$7LZEM-k(_?d3fiX
zpBm=~+sPjJn~ZamJ<J}({;dPeJJiiO@@#06w9dWRHnv+@#RUU!IAEXEv*H;?^+vXd
zt$*rNqt>Pv`N3@k!8!`rgq4lw-z=HI#w&88N~NrQj(s~H8#?~&yldz?tc*RL+4GXe
z(`R?ecXs$JgVYo1`34t0_v}uN+^OzmOKJH;6I{9ZcVCrcf!v$zVUMxB%UbDtlf?D>
z8>aveD#YQ?U1Z=m6An^PxZd&w7<BV7u%%Ipk`7*<@r+4h0#Hy)xdIb{ayod`!!WS0
z#3STI9VAnUUPXc|I4NjnnCUUbHRbftg2GMvt_kufpI=b97?*#{BPbU<%yd9ddncz|
z!LCk0DK;yh3iQ`}o_UZmEy(HVAcMAmp!H08rab<jGk9H427=R!N6@;0(^EdT(?!#c
z6N1v^oCz|5a#Vb|@k<+UyCyvWT-M+rQISEh8iQaegAS*l2?QA*?Qy!Ma>a>kaWt>!
z&$haAv~Itk%}5vpyX4A#K_|5@%uM80fMblAo||z7e4y2CP)m@{fc2E{;{+WLh(kpf
zSStF3BB|)}JF!H85(NXJ&g)|W!3>W+Hy%j9GBYn&lxeRw0IlL1w8r%bfRCOTL6v(?
zx&lF1L1e;!pu&a*u;_BT1roNygcI0MH{Ko4jo+k8P|dj96CPOBF(3Vwpc0ovkdH3R
zz)D{Ad4qz|2MaqYPzzuX+@L}Y&`*vEq+3v9eZb<G0%(kv7nDF_INgC0u#B~T&GUb+
zw9ij769G`w(|#57bp@|Z`ws$q_6OSojJrMPnVM;bT03ZV7^W7SnwxB!x$cA}C+wc!
zwBPBThCOur_>n_hhoDC=h(yi_599YtGHy^2!RbIJfQvBk<W-W;85R#l4|2on+I`{v
zO}%mPLi7SRyRNr~2fr?|+)^*8Ig;y56*Yy=Ztke3OAo|-d};fdqBw1`tl1iPQ$zTr
zw55W3leaj+=Qpjk*!6f1U)r{!Pgzfdhtm2|t}9-}S03c`ZQ;SRp=ix|fHxdS=z0C&
z@ZdwEH8#l`_kaBAy*KW@k(ga+P1T>`ji**Sc*8*Wbb60&ODWgNTN;)vpO)V*U+Gwx
zOgZ{_OMm$MLqj=t28Icr-ZT`&>N)$8gJXGfOJX=>Xb+!$Xt2ay`$ZoY<jyQP<Jb9;
zL%iY8N>4KQ)o^m2?>h6q!FOHa4VORzpq%)~9={xK<ZaCf7jJ7{InI~#@`m2zwN?6G
z`&P%kcxP>Rgg-UH8%DyXzt-v(o1#szp?K?>wf#5D=L?@LtZQEk_kRt7I({~KYiwzZ
zbH!~bThoTY5h2q>=Gf^aZA6*2RCDx4ecTw#CsD#%+E&cGrE}%lZ(Xa!$+6Ggd0^(d
z&++E-5fxDW!WA$624#}|s_$vauVHP^M9;)d$8Cwgy1pwyZknyPN|#DGTim<Sw{AWf
zQ9U$Q{bD$-;J(M3>k~@ed~l_iFY1L+%}JU!^+yz&CiCKabUqg3CKG*Y)om$LJ2YnG
zRK)4T2;b1nmv<){R*S!yT`m2h{lPi@JFoHOucd415`9nPq@_KgdZHpg&RBFT=8M-Q
zD*63~dE4QnO0@VFrUxDTv7xnBuJGMgc-xh9r9EK=MpJ7<zNI3pH9O{O=gnO!vwYDp
zWVSMHaH&0hi8nWG6t(h2t;?@|I&yy`g*qP=S8#_vGIQNaFUMVcabu!`x3)&8wAIEn
zEuD(HVaslq55k<6M?W3EKb|rl2YaBc5&Z#ojn~)1@=&@Dn8j<+YcUsRzRB`bWkmjv
zGR7LX<GiJgr|Muipn8-WUh0WEcuNaUwY;y|Izkwmw~i4S{h}(Wip(v(9esPlRL`60
zQ&dB^Z?|0?KJ$zoQ0se{g(|5}X!sI1Ass7ck^^7alV|wD1FP5h!>{m$SJ0s;`H71w
zj*aognz$JbSA0GZ{Pl2Ro^R|<+WE#F*t>89)W(?oN9-o0U8JH^%*L7Hwm(u$Uqjsx
zHN?EINxgrh4sL_%AO!Wi$2WF07+`u)O~rVEbBy1Ou5RhcM&vZOnOg))jAvtViG(1e
zqy$YOj1iEXBYs2zWxkvY@te>Vl7-}ed`OIOWqBN^4fQL47jWawhgCqNCzp^(NXaV4
zvk`TUmX<FoBt(ZtQ-##5npGh@N-Gy2?+~Jb$Z_JQP}-EGXslHpRe`9FR<Tr}BpS39
zh!S!U5KCoeK(Q(vigA%n8pt|O<5JRBQV-s=T$&A{V>NrwAPx#eh=nk*v`*utc>`pM
zkfhW|7<?QB-#eZl+6nl1CWh9s+Jb8*gO$tdhmbbUvV|}xq=0e!4zb;{M}>XzOk0O^
z!F`g}Fh8xN!2t1nh(bboR>x{tJ>YEZk8v7MjIf|Z%nv{&Y5`DPNcTY*L>ZcKyCf_3
z&RX<9u1zXs`}VMQ$gqb!6s%md$X{&_<F59Aa~m?TM%GYp^*{p@eMmczHGRWorX4mj
ze$WgyGwvo$oR72~AtS5=#TvcxON2vzkuie_aR7k>2Z$Nuv~MaCF|@sqDQum(FB7r6
ziuPRdxuuZe;VGsX@uP49M-vVUa}~-69J*#aOd~3*T@XD?x!w|#0R7!p1?4=%9v(pz
z^!NkQ3>M3bBSOubKQKGz@hm`$0l~#IL<H_h*VGIH1_P0R-cYmwU@mx_smD!#!~L`%
zhaN`}<AEmZTybQ8V+1jkis5rWpyoxG9S{`rD4u~|q!h-qf*M5_PA|aLS>`el^fDTN
z!mS`)&}SkL5f01z#{%dy?1Zh%DB?2A&bj<Shz^_xa56Wb4P^}i1~`;q;-Sv6*c0u!
zd4lWvgRXi_QN5<CPD9&?=!qKx;lA)}TBnaJL{D<Vf6&#eDQebqH4n{}*!a@E@VT_f
zw#Y_V?p#8<(w8zF1=wgV-!Q{nZjZax%=VPI>BhP6K%_2hFvkX>SGWOQUmG6W)SDO2
zN6&N0xcRnrv#k1#{<c1TX+`<D?lax$;O~ciH?&?hoGz>0R>}<f!h--8ii#tim?t^~
z*QwSL`|d3#K)m5pNh7aqOf+sZ_wda<$-Y$cNnU$$)yiuJ{#$E`*57QrRligZxVQ7C
zt#_E)%*XZjTJE;|@|`U?p;UoTjTT?!voZTkeYkJaU|GBZD%!c(+YNC$SGhd+>G}KT
zSJl5a{?52=cp1S?fO|35hgT4WFhX%Sc9|n%mzTP^OG_u>u7v%rhqtuyRBKcPV;IYk
z;-!nBXz1oU8>aodX@AO8w_$4LP0fjp#AwRY5q@dYT6U`kaE3O~w_?73dTn3VKOOn9
z=Zl^P^Z)U~fBE6M^#|dhO#sY&vDptNBC<49%r)IPc>5sOd-%RFRneW4C6&p(q>`^d
z6R#LZSMQ74Z@>0fPFB=ECP+;~R1d0{DnOOu+6`+RZ>@`ute96^pV?B@W8tBPI&<s@
z*Se-_SW`4GG;9kuT=v-q9VBpt#C8Mh6$}BgUAY2HqC10@;e-#mz;j*M5{;cKT-*hr
z0j<CZiW-(I1ROHGCP?dKu92)*G%n`N01vW|)1gVpd4*KDWb}CUQp-sLn4ttmi)M|V
zf)Ih&B@vA51W!nvO9Zo7I0DzsH1tt<eM(6y=yO7!27wO@g0#2<T7-0v7}v6zOyXNd
zt8gL+B?Q$t)vE{BDaSkpR+Hg2;u7Kpi?If9tztsm^bPK!Ao8~OVfB(Wd2K~f8&2qv
zAS<H@(gJ`Lh3W`Ce&A9NAIyT&SA!F$!~~G&gb_*;eYy{oP=*J)XorTGfU=<QgL@Yg
zICn9HI?-jy)S(}=jWT`}r*<4>ft+Vv%Mzi1bFP({hbmkao>|dVl72xw;T)Zuc25Y@
zgwyXE9i8+D@@uY1L5UqO<Pc_@;B^<EOOP$h1duIuI?!6tgX-q|DDfcr&lu4C4E_SO
z0Efdwn$j$)qv{wL)y9USMhFFR4N%eP7mr4d#)jYT;f~(vx!sen|Dm!4T%GnaZPN8?
z)0*Pcn(kEETzac=sgfK1X-)Xt*ILtJOSC06%h_Yzj|cBvxO*XK|FY?ergd#U#P-Mu
zefT;G`)sk<pO;1Y(za5rW62vilP)cT!d&E~w6!?)J<b&y0k8D>3VHWU-rBhWk<sx;
zf4aDYt5|wDG6*yrxpXu#fQV<8jz9q-ZzY7!I*5W2#Vh3fG8C-3d5EB1+$^u*0>7;I
z*pqniAANjz`^wQ|Jw%gDd{;kT)*tDQk>Cy$@1K2aCM*@m_u00J3B4(N4!abAd`nQz
zit$En0o|~PvJc7(V@Gohj`(|;_q2P(8`%T@jF@DvXyknjIHZCuM~oic*8(zE(IndL
zxmYEb)q6baD6;b)qME4ID+4!I$h{DS9147$%({+<CIZ~F{9OuM1v)JFVJZAYjDQ$O
z4M$pz#sJNTag;0F@z7b9vrB*0?ZC{R&0n}b$FJUlzi@w!U$zH-;r<-Id=LJ@{W*Tc
zCz+Uw6djl9BKBDTEwSrCxng(z?n0}LIJOab`a9WP->9Py2a8vugmv@2gcP{QqOfad
z?5ZVt>}DYfM62(WfooM<%uDd1z!Wm*Dluiq)S{|fP+S<i+?UHr2hi544TnWPM)d-I
z9i?3-7g{nIMevvT;LsW9Z0iM|>6#3jgn~%?8xRrbhM)fl6PuKAQ5V$#API68`O=mY
z)w+D`)3@)xo$N@`t0(!Bucq2B@zkX>rH{N3H9c0!%T?G1<Y9VBF!%zH;si`OHa9&N
zz&8Pdy+5*S&iXjf30Yp8Qg`T>CDi*9^i$v#5M<})A?-XDoS6%PZ-*>=o)vV!l=bZ|
zydYYmd{-MV{{Zv}_zRd}1N?88*wPYu!{VvvsdZh|nxbk=R|ODxLs!e|YS(r9*A)BL
zbo-I3?~Zog5J9uvic+vQ2E#7`TGZ)dve@vF>iwQIg)PzpdBY6U9Oi5Z@>A+Ql_bAZ
zf1zGCybwP9L?+j(!UInzLTQQB@rqKoP$J#2(+G1aQMn`HLU#;G@tAMwV#BvyUwWN$
z{q#zjGA$aT#@K9%D(AZIoV<N9VNX@I0v}HQxKdOZ*MQL@nW|{swb`(!kLqK?H%(m0
zovPbaan~>Rr76o3s}?}BjnG@d7et(xaav#{f<V_is&7AmANY?oG9-WYW(QmYpL*&1
z&+GZP6QrPLIhXQL>>-b2;ok%P0(r_D5(HO@5=WUM`6lQQg2YjX3Tbk|IUqw7Mm+LQ
zGVVVF|E0xheI#Hs9UM(?9w-8X4^(rsi}@K8;UgA;D1t8NflnuHSHR=!a47LU$KR-E
zKqwg4bR5Mo8Qydby|`=9$0YHy5{5aKQ1wmp^9B;B9(9UgqJGqgL&BM96cmz9!I1fY
zkU0lx#uJ#E3<d(oS!53Y6vPuyEUE@kug4w4=ms1Bb028`9sUB>;Rgalb1{Gt%7D-P
zFa$iO<41o}@_F@V)$7!$aNjd}8oE~cR-4xwF7S#2;X&BLLvi~PJyFt@aIKUi)vHwx
z7E;9{;R{=OLSu`Cwv-B!Dtu<Eh|pWZ7x5+o8zQSZ<P5U<BLXVSuTVp==r4W_Wx*uQ
zxor|Y2hPD~7J-sV4Eks(P_DV)ba2iOF@8V(w<JM6?h6VU@Idfc>a7_j<7Y0534m*e
zM;V-(ne>S3f&ibOJB>asiX?*OtUpu4i-s*G=tNsP$EGLg`-JH9M)CN)Q`7X^q~|2_
zIaJY&68I7}+m@Up$v+YL|0E3mMO1-@k(tA`_x9b`_mC=ysL+v(Gs&)Wqa)ezzzhLh
z=@6NI{f#w`7qaM@t7MKUknDdhsu!Pw>Ul?eK3ScAvk{r(^T`6L=49UkJF?dWGX2KL
zns*G@%a>;_ENd64t;Q0A>d&o&rtC?3nM}6TNyw=8DsEJ4$%aU>ZOcN~58Tt=)o)pG
zwOFc_;Hpik!cqZonN%&u)e54j=1%YJ-al8O>b9Ja>9@Pk7>7~)@u;ktY~+q0iY)?)
zE0^$V^++0y9`eYZTa!zZ@xgmTcZb%fLomSsvU3|zK7N5Tlct1wn}FBWA)@2(V@)M#
ziI;5HJ9&HO76FxXW9z+l?n3GV$`2b_HsJG4L-&>vYLFRdXu0RS>)cYK8b!3UZ6S6j
i9Y48o>@0um>^7=zzeHA$*2les=|IX@cSDCa`2PcGYsB9G

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_143388.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_143388.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d0c54a27ab63834c4ad63f58aa3c412d6b777120
GIT binary patch
literal 4463
zcmb_fZ)_9E6`xtJ?Om_`kOY$^5HR7I)~ZNEKu3;pIRXjLYsi&9hq#E-%6K=96Wbeh
z*N~)ZX>*5!T|RgtT@^=Fb*WUTTtRA)sNiEiBJ~SCM<tq42?@UBTe$GyRH<s;tp8ww
zj{_Ye@9dj5Z{B<JX7=}<|Kam_5VZeZ`tx`UsK<0rZSD%Oeiw)ZBq0eW&}jLMN3lI-
zl8#XpBN<QFda6syZ;6rF3Ga(MIvQgn#})QQWn$DV@e(VeiA^s{O3v@#yJUXMCAqIS
zM?E#axGQK>V2~`-G<#=o*t1I2ju7|Z;g62|QXGj^w?)}bcpUJos|?+ujwzG22^eo|
z624KH&$ta_xDCfFte^EEltBi5VT=vtg)vj7ncb)tL0}Enjf%w#XK)5P38M^Ox61YM
zD)51u1-8LU%uUA)x({d*eED79>$O3nW2)`S^F8+PTec_E*=ul343FWV5ti^xwiX?)
z<g8oeuWhVG7+%9kqf*_~tN@Yp8G_-Xy6V<8vM9W4QF2x_QcYAxSyNeZ7Os89U#GRf
zC5F3DJ}1Ay-*i>a38NVlc8}1DhhkOl!wg}Q5p9w<6@6S*!<ev<>9|&zU;7}8Rd4`>
zdBW%k;+ayFm>Nlnaf!GhY9tkt37b$N63i;ZJqDz{x0g7ybds>zMO7zGO;=Po93c1{
zVFo{e=N$2Bx*C^caavTB%LI=QhdiaJ^fnO(<*-pDq1k2$o+gYmLmZbPDq&Sk2Sd`d
z768%Ei|s$Z>bb0_liE}yD))>>qLUGQTuJSY#N?FTqp8szT~1E*z^EtDE2b1RDPFiN
zbx+NRz!Je7T}g>i1)SQmZ|~l|KA0gbVx6csDXS?tq3!_F^n2E}z?W&FXPc4W%kR$Z
zF5r@<-8{0wI<qZVqsVV9vRlo871ovAWqFI9ZAEsQd3eL{2`qgt_nvjK;4TRvb8tln
zSUYol=HL^~lXvIb7PbcGxq^Ou?=si(fa@)Cy|;Vs9JqC$#Pyp44|yTqnrpS1Eor`O
zY4i2d%lw`P{JtW;@Aj!Xqqjy&{2}x36OT9FmFu#atdsM>!pUXN4)9U%f6=_qI^SAo
zDQJsrrKVj)VV61hh!?U_uI-Cc3uoug77i~pEgrqzv>g1|b?vXwyGL%ti#>;m!GXUI
z7K6v{?I{L_i~KO?XI)p1&mGU6vfjykQec)g|C8-nhwvb^jdty{+X7v*f)zj_MDfDL
zz!Y4?tNa2o(1bnlVwZ6MzkXe18nCOOyo9OE+II^G`5miqBWoL0QycW+Z)ndESz;#l
z!{#=DTs^*5<f{pR;`D3k!LQVV^%}}HLR6!MJ{h)gbk0Mpf5T^-5{)Wkkd3YC@hr^)
zE}ed2b~9XhQ<a`*u2Rq6hO>%$waB{-r{SI)gy;nHU{z9L4fpSm<ovy(D*qYI@?%(X
zUEwmE-ddG2IC_eZX|O?e(&!A_RSjSVvfhnK{4p}vMkj96ES^STZe;a;&{k<)jU$B7
z?Cvw;aV?bS4N+7GNs6oirH8ci)Rdy?p)on4r&T#5#gn1__d^7CM{7A7bWpklo^@J{
z{1z{u93I192akM(D7Ky$Ix|4<35|ko$W*t(i*N@Mk>mv_(m%Vs9%8x=CX{F-q4fh%
zp5F)38r|KuCMq;7vT6uu8^6O|K-TfdluX>JTqay)R3)CMlG5X`w360{6Tmk*PCS5p
z`iz)}Ps+qAC*&l6qNv4ZW#UN2Q^ZxqKN3jE)4DjNT$WW)854Vn_f#5GCFLPiRa6`L
z!k!HuHt|f0wtW#2LkD$_o;dNJ7&s>${rL3Ipm_QhqeEqIXJY{S>Q7-_qtU7X_@Q!G
zy!F9Q`#|CyD!Lg$4EtYcvN6m2aE0UZe2%v|t;j-bK32FeKUv~B0c!yd+jH&K;R5p|
zx5zCuFM3P-j{$Vu+|}v1X^Z*Xur7Y>{?UrpmmkgzUmMBd6*qr%W^Tr6{ybB_U%T5@
ze1ZI@xlgZ&S>_4vf55jD`L@E&5>KI9@aFgD_RkHP1Lnn*V0$6*Woj{1+TL9ZcAFy)
z{Y_T)AG;oO_7yw(?lzS=e_rw*G>?Jl?EcSw{m|cjzvIJu`|pMCpFVSc>&GSk+56nt
z$HF#q@FCk;V2f-AY-)w`*grnc<v6S9nqc#w4?GKSPS;v9^7``!atEx5lCbkWyVJf5
zQHW5j(TdH+RR;P6xZaui>Vw|E4Nbxl6vlP6T7yavDxnHDgX^k}AFhqjYq$yDI#WXr
zhXDvBIS+!b-(wHT@we#xn`wKs_uOlE&%D*xznQjId(Xdy_nx=v{hMifwf6$`-avrC
z-jP*$byqp)pr}ks5kO>@Bwvb0W#W|d8Guhgmo;6CMl`7WR_Uc)rS)_@ySIL@SKYN?
zdS94TyD85J<*<}eX==5>E6m#1oKEOk9cEI9)Tmb!{mQtv$#$Wx)>Mzd{0S=94cKR*
zNB&Lbv1eYy`}0Chum-G)OIvQH|C0GCv&_A34ggf;x8}A&8Hty=ZaeSzZuyq^eyGj(
zpcN@J+wk?MV~2Sxd!op;*XvPh^0c6Qu7_EA_jd43$E}WK{)5-i^S1o?A$rz0<ZUrW
zY*Y;6*wgXH*}r}Jq(AJlPe<*AaFRed(RC-_k4qZ<8W65ZsrDUlOvH7<L;losd3vgx
z@rdh;oYEAPIPHHo_R-o0L<GpZaJphlNl0oJ=r5<|N{UY^QaT~`s~^DxEfTZ@bZZWb
z@nhuu7xMiZZCi68hP&E6*S^NI;h(Jek$+SEeD3@=0T``25aYG^Py5<&r!}-NJU_gK
ofLxOQl=wr!ChrE<DQEpCM%ed__g&obbQ+_;j*>q#C)nQnAME#j1poj5

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_167554.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_167554.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4158463d5a77e6c68f6ba8560493e1c46bbfc1c9
GIT binary patch
literal 4386
zcmb_fUu+Y}8J}6Ny}RDEO#&g80EYutu9ixo3pwB@mzEIVu0ZYx*Ao|UUHQD5#EI<<
zv+K*Bu3LvgidR(fMy(X{bg9$_XpmY|D(<oGeZe>?(UwY);3aS2!b8=U_M3HVoSct?
zUPj*8`M&x7&3v=J`TX}lz>lE)W%`f9r$vMwQ=-y@^}*T$7|bCBDL8=!%5OY?U7AUH
z23U+#JmT7^sFvRfqp~B?MjoXG8O3vrU09zO-~^=j6;?$f+rBBQc)x}3Qw4>qKR3uL
z{59`@zZ$V{4GoA4QpKuIX%a`o73!|f;d;(}aPq9&7vpN&dtvN>XKjR`i#Kp(j?$Z(
zf*023Gn|P`&h$)y{!{>=3^JJwG-KioG_JACZnleH%T3?Hy2lJ}@+Lb9R7R-L@_kba
zV&JEMZ3+r=+p|E|0d1s`&@$=vMs-{-fz?&{zr!EiVt-<dzd8rV^qYRV!`1jCg{{#D
zRu@$rn3CzGJ5te@g2SE(n4%e=c4~C%c@sB!Q`m|%YK7{Tt(2vv;6um+Yb@3|)Nm%s
z`3aiBZEqz%7)_#xuaD4l4^<+MFb<oH>Z6WVGlo^NLeE(Q6L5+mg2NaI$3I52Arei>
zamDdPNi;R2I&4CVDln@#+#n2%L!FLCPbVE#zd{Vhs~Z|oBOwQ0a+uyv;JM^Tx<TTK
zDo@Bn8+UM@<59<SLQjt4p&T}*C3M%VgC`tDnRGm#M~TA{-2g|*gdPIX@W%F^4?D&+
zGOCY7V`|56G&UMFhPBke=#ZK+I&>22Fx2E&2T&b}PC2EKr2N^q(mpmR151W*3@s(c
zGzjXg!$;nJy9;KV?Q)H%JgSnEnjm|@HT??o5bRDCJ==lAK>nb0uz*Yc*6hh8)|=a&
zGmFBmBD*VlVu|(T_S;g?zq`op&h~5~pMdH+);sov0#_2l+1@2FWVcyIv%Qaaf1a~A
z8{56Je8ISRXp!%D$afa`&byuWj@>y{;=8ja9tmQ;*=n{MZDqD)e#gy=i^5wEg|4E|
zb+`ZCz@34T@Y8J16Tg%{U>&d<><hC^*AGH~qVyY*AGgMBy>M}MvJ`47if!56WkJj-
zR?F}D=RThOxX?4-aO3oEe=&dM=E*<rzxDp_e_d=k^3@x~rtZHr6q|aALJt^beKYS(
zznAN`->^O@F!MY9!5&zHeL<v!cCEDA37z93s*xtC*g7x(3n2;)F5vwN&fgp|(TL05
z*kwGxuhm+g2AIP2<P}UkR{;!x)c>!I!8bkko7!{mRhZEuu*7X3R}1Cq@)hg{NX9Q|
z2fxq`HmZPH4?N8(*ksuHyIJ0yjQ3k+J#_CfK7boE0$0iAR$0#!y%0Eqet&K=IisO6
z9%-zMp1)0R1q7>k;Z3i}kM_deiAGaJQmM*ag-d7<!==+)nKK0%8(cHkq|w#Oil^cQ
zYy;datY-uxldX3K%&PoF3W6*Dg+{233x{!pFq-Q6XgIEi6VXYPgehEv6;0JsZyI4e
zJvOEhBRr@^;asa>C7uj-zZ*W>b+)HHA_3kFN5@o$BWiizD`TDGk7+3*K9ttdy5j{%
zj14<}KqO;QPQ*u5M^Y1N5}-=f<5Q~RNybx-uZ&7gD5Xvq@|ZTR5?LFRI~}P%4W^Rn
zDMB>j0#d}k`K$9!$gY1G;Cc^T8Qp3JpLc@iPh65u|NP>qUisqt1E<QU%MJk^>$IwR
z4yxpJsv*^4AUOoAHhA<_7yMTJsB!yT^K5hWXG^@07c9ZvXMZ*~JUd(<vxySF9{><Q
zs?}<>dkV~#{0)A-@rG0qegH_w@iP<C6E^dOX<vE3y|yF;^5?8`*ZXpKi4$ffrzh>k
zFER!EfNNO_gz}$SpI(=9%o8E_P-rO%Erqs{K=Bm3Qk-Ng5nQbk*zyC>)LMvsnYxiG
zz207IYR~pP3O3m7e>m`P-_hc}qhB?Y_WigNJf1xRapaC%{pF)z>-}99O2Pj7eE+f(
z$aMh*v&{vz$nF8NOT6Fx33=Y)?S|{3%Y#1jEW~?#tBpts=8sv&?2(e#cAsq{Vc4S>
zJk>^T3>WYi=;u%zYPFhMn_j}3nt~N5Tx%+(I`!IZc43{Hsjck3zct3FLK=K@O!d?C
zm;lL&_c+A*9nt#~ZVRJ-HES=9o_~qxnJwM>SF`rw=!KVv-oK^MznZldM=#RoO$4AT
z^{vpOyTU^U<z8BeLhb2O)X(EF)$uCEBtWQWsJbD?qB_)MEA&vW(CW69-C0W<auK|i
z(-mRK52=b53RNXV=)LAbScG-)Ih`={8r-BXsne(^2A0upn;Sw+6-atu{sSu5?jqoF
za9j4wGYJX7yl9E`3H!?Y&fDofWo~5_`FFD?0I%}9tX)vx;rRo1z4rol0*gX76i-5v
z9W6Av7`D7;Z}v>?e35OfwL_}%wA6cUhnYWox9Q%VJ9`#|pS+Bnt%~RS*jeR~v_0GB
zqGALOJsp0W`|H1-bVmYicF2!lJDpJZvTIMkUy3vo?G9fV5%-LEM&gDez#Xa^>cm+2
z)^mIxsVQ9}j@SL);ilG2kR!tF3)z*2w1jdCxsJ;T<&P&dC7n>a$yx9UDMb2J=vF-#
z<Htz)Ckp%v?Ow**OzU*(D)SnCb2W&9+wzyK%U_3pTJs=AD)Wz_#+^^Oy?EaeC(W4C
z=BfwA%X}a&S<<Q(#;ZQ$53N!OSieu4xjcP&O#o``LyU0XYw0lF{&WJP(B4uoJT1C0
F{triGU=9EP

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_215639.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_215639.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..96ba255184f3223aafc290aea6bf7b64cd1131c2
GIT binary patch
literal 4522
zcmcIn-)|Gi9iLgRy}RDEou7mlIGmJnbt@7PxDc)!r-V>w4?=;f#6?_JKJUhHVtd2x
z`tsw}lEWb-D^Bv}3G;M0sSjL()I*}8l`8cQ=nKYCv9?r-3NLvJm#b7&mD=yDV|U3J
z4pchIPG-LI{WahD&gVP+Qy}0+(Ejzwug7ydLXXL$*0`;~<^veqKoXL03XN9(<5BF)
zskCR5#z@8!j-Hxm^}j^P^n~y%jm*X<$#acf*;*K7I3)QcT1FF1-{zIP&!PKdPGTCb
zjj<AY%{%I^d(2%!qdbLVzHU>P#Zi8pm>aQ~p)==ByeE#t8JBr4j6Lve{*5A=*Kuua
z0_NMBgjcrKbBuuu#_-I6{9FK`95Se9=9Gb-nPZn`db?f(Avb(0TNZPyi`VyUUa-v0
z0oh;;dJ<$L>b7Tv>;c+D?J%oTr`PM_Mu%755$Cen;4o{}3{IkI)^cu{VBJi8U~mRU
zB2>2l$M3SzAPo$^;U#;kNz6gA=J=ZJoZymf6dC+~iA=y{^+k~hxFX}0X%v~jw#WpH
zfWebk89|AzMS<+zp;cF$SkA!(%!OPYwba91A3!cvGbCgPx4pH~!e|yneIqJKvqX(I
zO4)QercK&jMIV>db&}svtdeUH_1l!5vi(!4l2Bu5F)7);m>SC@WSdSYF$q=`n;C<l
zeyGp(PJ_5?d$erYrnM`oZhJLdQRQfpjW5~M@CWc+vIR|7laegXh^jJe;}P2<PiZPi
zUfV+`bX-YkHlDFPAIDUiRyAF6e6cBM)}|8hNi!PBo5;5I&!6{BE9#^+6^qNg<FWW;
zOdnS=2Vx01qxWiRyjPdgQ@t?jP4$TxMNNwzO-nsfvm%g0@JUxPVq5{w`VPL;f9NQz
z*sY?ARh*R7jGR)tz&6P|?KDIxkG^R`e4uc^JW#}Ce>i`lLVFim7mX6Pt3>b04_0X3
z;`c0}<lkMQcjt$;O&@{iQS+#EzQ~mMNPhSc>n|`SV_|D}i7o2Ov70luv{m-dL$<%f
z_TN?S&E1(RvqSko!pNGe)mFqyJBtU4@iN;DRKHNzZ|=96t@BIm*AIX*yzrS?m^P;^
zt$1;1wjAmz@m=}h3Lmn%%mJ{+@r4ev!)mdlrOxHHTlkBeU$w4sZ$0D&O5DI7TK*XR
zeYngG=Z6U6PIITVuh_iwgW}M#r_AlEQg@g;EDG%TuD=1><M>6%?6fWv4=#I_<6m$$
z-z~NO=$2G!@B8X}slC6%^@9}cTR1&`dhvp_&-|cBEw}xd-oFU}MQWIIdq~#-o$XU)
zJ*#HoTgV0^gb2DhX#Gn_;v2|76At;=F6RNdTWV_=Ft#DTggb$wj=spi&ymKBtZkDf
zHpu1K*8W>LBx>>qY_SRW+;wP+zgD=Qp5T|%gI}oUIeWeg@ypRUuU@YgjcS8Y$Kjk$
zB2k4(x4qRoo+BC=Jycsa7`?eRo@j(o-WtZ&BhMOMgPk0P=<s@bO;)07d{?nf62oZ*
zJ?5Mm)IzA7&xv{60_X)qyzN`ria17wuhAJBo|>(TD9Vhi{~MZ0WReJBG<Wd*@uU_>
z^+gDNL?lJlGH>b;Eju-(sCr~fjzPZ45h<CD9DgU$fB3zj9tUdyPDwUK1wh2{*pzHD
zs$3oTs%U8Y<4Q(PCbCLav%LVC@p0P^aHY?RspO<=3vx<M1CEJWat;tSoy^$2DrDKA
zj69=@Q_8fgiprSSXA2jypeik&R8>WF&??Gpzghkn(XlTo2^*hPcYt&1Ug+%L*}+TV
zPkwRn<gj@0r=uqww>6R>b+A<<gimlIqk5Pyz^AbeByRXoOY4n}rH=g1DlAvvOwQ`I
zVmA^?iQ-2~lMYe=P!z&u*cvKQpR+gF<(8X5nfrczXpLbPX69!s>QlqI@_^Y{5dwuX
z=9%jwi@3sY3$ydHR?DZkB7VShRsx~IhvtXZ#YJk37YawrBlE-g!Tgm+T<{^+S>ig2
zU1bg+cdb2KjD4QDnJK@~Q)=(Yk30%CTRp$p|FC<Y)IIRK=5qIs%fVy$Qx%3?JaYAu
zN5Sy@T_fe-x%=$7Cv-=#xk#7jJ+O}o>v#S*2Y8#W^A3%#G<Ezv#Cm-jZAb_f-ZtO1
zCdz!*eY#8ShKR)Bt2a_LNFHob(BFWR%6;c+Q-TMy>-E;)-FTZ`*`ns$FHE?L+na=6
zNgJit(FtxCRllPi18_j{9s~8RH%KFUK8bma-oKi*7kkgXg!j}dMeDm_|7zM^>^=7q
z-uqvx_phey#oqJ8djkQ!3M1<zb=O(w;N6#%V(=FAN%F_ZxNLhReHM_C*JVu?<1tMZ
z53Z9WTPJTnH@VL}Iplz~n{qfxt3M<nUU;}l8I=?;2e6{F1H;*ruDRfmprA&)B7j%L
zx+cd3*Go`60qf@oV~>M(Yr&@csc!_t1q-~%TZ7h><sG-PzsY@>TV>zL4?Y3<E^`+=
z^6>KhyWV?&JAqa1cz);!*KWm%Eme@(vp0Wg@ob3>yY;Abe)hOq54GHXxBcFpJ9}2S
zcV9-&>+<J+(X+uKp*26^pkfp!o{m3W{Ov!U9FGQ^(@}dMoOY;M(|S_y6C(=`cblz^
zR3}F~6G`3Xpj2wQJTp}-Znp1zIio46?R9>KI7jOokj+Dph0_%iN=o_?IfknT${tHA
zQZ^+YSI>Y|I6|adg>J)xF@B7Mzo5Wh(e5?OEQII78&n5=b0dg?O@+(m<*!39+w>qx
zsL}^e%Z{f^1b0^$VZoR;Hasw1V*>@j6gIpt-tZxRXoGOT{(bzy<@w8-9LzQ^V1xr-
U3;nqD=?q4pz2#tJo_Bow4+H~xFaQ7m

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_220059.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_220059.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a93b2a788243ed4f9a751994180d8604bc109090
GIT binary patch
literal 3963
zcmb_fZ)_9E6`x(N?OpGB?ffU<as&>z`YH$nNP=_)B{BchlHTbM;-XZmt#|X+@jA1c
z!%5fD1|gBveXx-#;g9}!97sJRBwDFb`@K?iR-zJ3Qz_E%CEwi3^-DkX&Dt>wmm@@F
z<ehnM-pqS%X5ReX_;1l@1VOoJd_C0$)OVEGDSVyS{yPv4kcKoSjmBy%Gsbv4I~N$^
z7^E{Zo}QhlwN_(wZbo{wk8%^N7P!kjstd-#8mFU~_>aeF!Jp_4>4FyCT{gjM{9SG=
z((qQei^fD2>0-m4w8$hPTh!br2@n73*CW4FMpJ(GgCGjPxBYvTF5F`1SXyR)f4ykT
zqq;mFu_Jb1b{rwhEFv2L7g_>cOE4ub+6?gF1~1tx@O*=h`mAuT+d#1Ow(zKKJulm`
z&CLRrkNIYWemu(-ZJAoPV;cK7@QAJn%8XEJ{k7F#c00(%3gdg&lisntCOdA&=^o{q
zeU^6#DZ5!?9&<Z8WOGX*%xUq>ksAwa5O#|lq`T8tT`O2?^{lnoO?9f>r(-v};31vi
zx2^?uG*d6Aw5F@Rk`BAw?pT6&%OCLR-X;9)Xni*i*s;f<ozr8`B1(iuF%5>vowX!b
z!p*7XED0Lcl#UY&;ndu;S(jHYCKwEEpoBnJD@`I<Y)oQxPMOw7NX2SqQYT#6P&JSm
zBs>A6b*7I5%!N4;#O6G<NYJzltS34NbBnOa&*8g8nCpZYB>_Ea63Mjiw5BUL1sk_X
zw9aXZud<#L(<mf?EZ7d_l&pnG2*%ag8qcMSwCVXvm>glXMZ)D2bDjjgP%+`KX?ZiJ
zRPf5u@!aWJ(+4ASW+y1``Kj{XPkL_~c-G9SDZO_}P0gy-l#w~1PU;z}*Tkt_OP|a3
z0@s`FQ!)mgQ+|6}JDFWnpi6-TT1G}m8L-U0zEh{pod*eNQG7#{SsiEeG){mMVff4e
zKn4f>(1pZk;e>ml#H>cToRRf#WJSG`Tj%9XDOwB^)0Oy<igd)ev>uHWKPW{j&BrRy
zW6tH**cYJWynDX*X(_xa_BhFPF;+b64m!yfe54R|!^L2UyDyc`er2xlXP)!@6~6x|
zezx>vX_X&#hBgGT(BXCz+e=69cb9K`)3PR<doB!Cguy>I|E23sU8_RU8Qv77m3jA^
zliY|%h2!q=Vryw=E%JW3sS-KjjBJ1dgYIB)r1Zi4Ypde>PLlf1xmTS_o042?b+0*>
zHYB-l*}YusD>3)`%gmZ|q@4Qdvv1Bk{Je5}pdt<a@oYu9_}9Y~X#^$-a<R?rc7|VY
zp?g=CudduIYVL1J!{r<Q;6B=h{X_T=t$JwH4iyPu-CDqzR2|5m3!x}{9#|iR&3*u|
zJL7e~T8&e%4CFbhF>_`YkhQr66a;O~4$daQuxQbv^vX-9zr$D!5Zw(h?U$euvZ#k%
zu>%tf4Nyo8j2*HAV1osJV|B5w(byeNY-SI6Xb*W1fWMyH7-WY&LkVtl>ELBug`L!U
zwCOoLV@?~H9?LL#(kh<RJ!ApEpj(yT;pR`NS)GJx@lRqIJ!dId<F<|!V?ya8k(+9I
zLBE8tf#D(=I5kBgaE+`*B|Q!If!+lYssTbG{Mv!yR*>R0T2X8GL#Rx;-Sr!ce+D#>
z{C5nWg|1U{ToEb<RU=4>76#mb<)ky@%x}o8&*h^P`DppmRry2b%6gbz8MyPi4f(*g
zo&Brwz_<Ls3qgJ^bXJ7U(&1I%JsN!-rKS>B;kws(VV#e7KOo>ILS5ipzS#67kdcDm
z3dO@;N`5ll@t-y^7^-$5Np`N`kHD!Ee2qf0GF{s?3-tpujq-cGCp35-`SS5DfeM+f
z-kWE9Ii&tRXxIiqWA>$ueHrW!qU=sS%?BV@krw<IH11(9q=nz1_xscKX7Bm8@Sfe*
zZtb=A`_uMj?}fMUKJrez-=DTOdoNP&Z3N&Wjc(D<-J*Xk2$x#WRCv3DH2sU|lum-0
zwFp=vTDoZ|Db>`K(_1vCx9IE0-`(eD&TP>KxWDIYg2Sh2Ul1NQS_V@D_JAY7kucWH
zg|ub*pvZ$A>J^2Z8s@}37ks%LCqaG-KJ%oP)Hmh0bL9sK335Sn#o|zLzTEzJ;Sc$T
z`8EC*&Jci1;h=jEk~LF4{xtY3`Xst0TmY~U+KOta*#n-<?nBO%mFpF*%dZDF#`72a
zdf0OR)3#^bPrBEHi*KXnUHS9>=&ABZYH>zAR7^y@Bf%$O4@s<+O-`oa?YRK&FT(Fo
z*b9un%(O*>l#wwlJ(tDxEOG-<70oi<1JyfE?^K9bJ5puRNNW#~XRUUM{Ks>Kwvg5@
z;Ok(OMv3V_RShr<^Bt1@iK72P?^Q#H<?nSZcU9SA%+IT>NRAiA-SO|+fZGlrR;u-X
z!gMn7dRV$=FWc1s(3^a;Ah}XC2sG%3#HwLR@hBwT8($vZ7J%DMGKh(OFZDAm|IRTe
Nc4$@ZSr$DH{|DDGAd~<A

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_28664.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_28664.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..452d47600b64a963f10f332e4d0e838ed9301549
GIT binary patch
literal 4168
zcmb_fU2GHC6~5OV+cO@I9TOZjVIhAI>S`e+*+R8~>?S0H-9ol#(F!7@(cl^9&+&vi
z6G+mrG$176?t>=}Rg6}Z+^0f8Dl4tJJnnn@fR(5l-KG)}yyPw2Y^AC%?YZNh9kMAu
zTCU<d=iGDdx!<`z-@W;ZB!v+aee#dvlOR21O05K|!q%TbSVk&RaR!Z6zIYV7x^LP)
z%3-8o)_Z$VeHu3z+1`p!+Nb(&ardi+(U8h%XtLplern+Vv<EdI9aKZNxY2MO6@Lqj
ziaw-?^|+CFoD?=#*by2UIQ#LbU&<pXFU$a#{P5fQiH{{{V&==rB<S0VitktLxv&+s
z{8N_^B6!~0i`(7@!IW9T{c5zFXo(g#1zIj*A&3!N00axrDJNMN^iW-oT0YSEx*qdj
zt1XLXFiWyT7RQRHz6bvMEGH<rhL`k;?$|5t>BUzfd26e|YGAlj{D7-vW^oH5jJM0I
zJMOd{CZ)Q$E?B#)07G7%+s2oS9{=I!x!qRWYGjzK-D;o~ks)&1Di#-W1?K|nfn35f
zPP7iEE?BYZ+$5~XgJ5k&F`7ro&<J4*I#%;d`Y1Q87*jN$o8uZuV#+CV6Gqj(`F;`;
zw$YM2^_dwOo+0`eQKsbyl?D}}WXCkhWpqWQeq(l;MKZ@}fEZVaNdtzd6D`?9@kQzz
zyad0C6rZDbg!;7^gGLOKOsJYXClmcTm8zOL|Ges23EL9X&-{XVI&H{V7ZVN4$ulOQ
zLFiQZR&+c^ed;{*UsDL>h+(Rf2XHcYF~gkE1ku`dEdTkq`?^l1j2R`Rb&o5lDM&}p
z9#+P*tl4dlRJW;3&vb*<o#~OYI+>QQTvw0G%*)UuLpr9Ol~Xz-)$@yE$KC}4ZInHp
z@{~rhT81110PGwX4R9uH^j!-QrNZI-;UZoMx7erFLg7W_=G+<|eI~^Um-3gKtHnbr
zQipwdO^iGJ`S<L>ClSf<JDGArM>*1A53NZtr?V)PcO5KC2f^)m^%);7gz_OLPz)|b
zOBWtCuJS*(`_~1ruqVIAX)1OtwU*3>y{p1;d*E3(Qs~NeIdSLwQlfZ%HQZWiFNZtr
zQ|kcnc>Z|dWd3Bav1r_BUJ*O(!Sz_Ya4mn$xl%m3lr9}zjUBYltO??xns0V4mKyK+
z@22hv<@TO(qW7U%PQ3T%d^yqgb-bJyC<_Djz&aPaedflQ#ZR4dUM^lKnSbNn*@B5d
zWIwA~S(Sh)RpkT_5n|`i<-Nbc?A;cYk%cB*!}C?n5AEK5RWop!U&YO!)y{toS@;z_
z@y=siW~|8N0wy~uZkgPP=K^(}2wDLvI5i0A#Z95sNA+2O&yni4f}f+`aW&tY*aR-9
zl%1|4>wESIS=?`gMInt<?iQcp%~-9U#j|{YwXp?0Ft!i!h}W#&f7Lodn2{ITLocxh
zfp@C66-HKQr}?$~wH$LHEA$EDrj7qXS=e=2Q_NYSwW$-+TGp7*vuz8pwv>|1>SmiZ
zm(nz~Emgnn06vo&;kU&`{4HKad7Q=&5RcqLjNr}<UFfI5ETa~~VD#5!lLPRf{E3V*
zeMMFJ7WR7&>X8!}J*8xfJ`gJQUhp<TQ2pCR#ily~=>pkhQXojS%aQ^R-ncTO(Gbxp
zLa@RJG?vxoOnFAXt`S*J%RMywsgjx1h6vFK4FE}|#%UOc#hjNj6F?D+9%!&ah{^D_
zqd<<ZfmyO-H>=p#q!TL2jRBvMcR)1QG}H<1gG#CqZ-V4FcpPG`PoaXG)*@12I6n+j
z!V3i<FE|~JRvcKGSmE33emK#EmVApdPz)5W+!0oU4trotj4(d9F=+SOSJ$Jvzlk0w
zM-P<FuS5^o!)qaa@%YVOuSef{y!Y^3<?bgBV_%0J%|CAba3%WDWB#LOLi8J<xhymn
z+gF6QA(#}kPd^pgfl#<TMXt>40~l+3*!=?m{zL|h&+|_FGZ4cr#`e!5Ua?`%zY<~~
zxcL?W5@UFWR)iLYRI)#G*DD3N)(bnJe)w(qpk783DCd0)u}!kAs91%UpXZUV!-EMP
z71h=p_FU0FKAO*Do6jw9h<$bH@>@W2YTyJ|UNRoMINu=p*NgUI^!zKJ_r1}%f4yig
zMlZYq`tTb?|9a70j9z5uEd*Q{8QEZ4cY{5eDVLg66=2Sws$H8%X*8gk^FVE)sTro6
zQVdN#y1_Q}2K&Fq+uY+-dN&v`dt2U3a)ePSyb+bGnx&yMJRZ&79+!`joXefF8Po8P
zUMIL43>hP|3Y9guFgy<{at7?bVva{(L>oPcHrT`8MUW6Jh<VZJcdnM29?bqJcQ3cf
zpS1gdehPc@d!6$|T<ZEV@Rjt1v?}z$<3~t1N^zG<Nl*5*+QW<I%3O;#4ypU|ecm{}
z(y=cSU+w#1->UHbtHgOzcz#TrO&&!W?Gcw5lajkE<YzF4G*-E{j%46@KMQYP%GV^~
zZVvzCgh_>zo;6HuZiZCvs|#>bv-`|lQFlGvRiPqWhp?pbn4VF|Pa%Hg>O8<k;!jNL
z>TE{qBW&^5W-+Fq+Vo?LpQ6a$k@OGr_7fbs-EyO4)3+ZV-rS9%4Ta13%iktI+wvn{
zq|*KYZoyG!X!-2Y*-ZpuN&7?Q_Ze4wl-Ob|Tc<I?(zlUgxbdHJ7{yvwqHQ-s7tH?v
DZtGtS

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_338946.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_338946.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..134862d172c640d5e9fefb580d621655a8fa346a
GIT binary patch
literal 5090
zcmb_gU2GHC6`rxjzhgT;&OZs504YX5mINix?m`m+Y-o~}F57IQ-Hsg3B(dXo%$+g$
zVJr<439NmvBO%#5HE18mE=b*#R$W&6u>0N@jH6=RrV`TTB~l;KP5aV^w&#vL&eUuE
z1Xs@Wx#ymr@7#NR&b|4w+wG*F4NZPF!@DTzdos|QwM1<H35X2EQ#>7^CW_zm1g(ut
zbLI(#rUW{y+0j*t-@Hj+!eF(sO__M}4d#A{Jz?V+feP1FN>LPVc?RDqIHs(;?FKX9
zETgjDpe9%oC9q|?u0`7K*d%7hux)VUmuG&#jRlP`Eih$<zwN)9NPsd;WJwFdxU%u|
z{nC8GsW=t$?1vPE=tZLzQ>g<X(2C=J$y$O{ScRE|QNpEAV8glu2$n!eVM(8GD>QIz
z6<m*E0<OJ+TVp`0Z<N8k;#OR|>4Et^i4R($_672u3i&#vHtZ<s8hg1ssJ7wd6{<IQ
zt8xI8dZnJk!_yBKeRULOi3OZqg9lI9S(ymemB})pcohp-zq0oRrS3JbH@*OS<Bzc?
znv^EqqT?WOkm!^K(kGgg#v-LO7d4mQ3?^EXmTDLkQ@FkySeXbnl*uwtj<(f+x2Zf`
zCX^bbRdGGA>L-Dw7Ae1N43R@QtxNe$n3)Smv)CfaGXnC{m<cR|q|*G>X+Mo16w2?y
zCOLwgF(gi-z#JFiu{D4K(P;rQ5i!8StcYz>K+3&6*eu28h*^0CTaa`a$(WHBV*+*x
z5n)b<%ACB2Es`uE!QY1I53p(IxA6A?rbjV7hRs4u!Y)ZhAzt7XI3&(vcWJ~g{{K*$
zMdYMoE65R8Oi+wS8fI)=;9@e8unp8oM2SN$U=zPc1g2sH@09?;43cDClP&UiQO1^_
zC`?U(>;ks(3!E62r8aQpduIFhue#?&G%LjdL7{sl5S)cI5Ti!|(-3vHgo53&Fc<5F
zQFo+=i;8HDo1Ev5#uhnXaS*XAM!BE}argF~IC;DeX0Vqth;p+6iV6{Q1W=G4zcdP|
zNu@U2HK~u1A7zi_-5u(=g3X<-yMDD`_iV84)XC(@^u??#&-&D%0$Y>bn>?WoJ#~B1
zP1(b_x~`nNYqcTgJ_2f<+H_xbH0Sl_JpR?8oaZg|d^O&N-I=l_ZE0)v(yDjOencHu
zcd)7EWOKSXE3fvhIl9$Bu%Eh=ymY%Wb7=XH25Q~uN_8c>z-!m?o|VgMPXFpa&Ur*V
zvkn;hll`f8lJ8`_S?Nw|p4|rkJ+&zzDcl~+Tv)!4_v}&6>js*$eYv{5tMr=lkb0)z
zs!8`|_pO-k_;cR<IoE+zCg(b=o-H_P)5nv$vj<kX?i|fI4iZE)srQrbr+YH}%l%Kh
z2Xfv6d3Tq3Zk@5-eD~VBx5m>`E64xB9NdOgrBEm7_K~g?x?m}n0!dLMtC8{cXV7OT
zg$fgHMN{Z%+}VS$W3~&B{q$0GovyB*FazJ{wPat{<4v<e0PYk>k)LNp<B4_!j|_P;
ziAK-62?|hF*RG1bLi-uWKO|L-Nmyi?4j^pTshw}dQqE#l#iCfXXjmEYXR+~&K7XB-
z-8wg1r7kEt+200HSE&;Enn|@V@6~PXeCzYtdOTmBey%=Qk;WanI>npySa=IL0jTa7
za#md~N|08wWYZ-QcG$aW5<m7;UC!vMy2Oqzhhlq4U)AM|zN$;?_;Sk4`noC16iv=6
z+?Z&^rZ8|$Op0A`ko(gE`+caTq|p?ht8$8!@=7FZitRnh?-*O!^WID#Civz;64a*P
zjBiqq=LI3^Tkr*<ypLbpB&BilztEQa=Y)V9M}m(JLB*0nV$?V0lSR=N37~1gHzgup
z>0-G_E{9rC-TV(|Lct`zTPT<oiFm_iuz;B>Az>a{iy0o*M1=*Ji;43B;>0Pg2RnZg
zh{T1n2#E+=pe_bypjOVs<V7wLnia4+Btcb(%Ax7F7?-fqKwFEIQ7Z_3wjys~kBCCk
zp=cn&X;=_hThu~2f)O1e9VuvN7wOuelgLldP~OmC7-N^Q2BDt=izG<thE{wEtcxV@
z^kimcdFC;@`w=tn$TyIOp56Vlu_-gYJg$xvZ1$V+Yw_RDYn936PMu4hOZTKNXXcmZ
zvuOEh-nH)*U4R@to*YmAI$QsTmOCvgop;(HN8d6%Eqb^%qz<T;*F6nSJo|H={VNyq
zo}WO8ve|F-U%$HUX?fH-l=qx{WIwy%@H}y}<{Yiry?IAF<bKdUojkq9wim$jNOI)k
zF>uDZpRl`f?5;JogE)rz`7sB+I``c>c=zCH&nJgJ-}|_;H+?K~V);aN;P%fR)_vRZ
zb<201-?XbEh5cRkhVKrqPJS}_`NhZk`_hA%;pO3M;P%MF!EcAZ9{z6fn^AT2<)k*4
z=4@S-$uS)TyQ5%tY9Aor!xrof1$!g;)HeUCk+oR2+9)Wbq}cAxJACROM4=9&qp%x6
z_$xPZHy~TQZGt{Sg{Xw_xk8S4MdN86-e!g?c$Fs&T-i(91Z}u_zP>fnPO*TWx~W{C
z%nB4T-tsnJeStrC6TU(8uV(G}=<P3o-t<P-{?)8KAHCxx&^zBK`d72|eDo|quTYTu
zU1OW%=x&m$2s{zud;lIkR$jOg3JTc5Yp)Yl79^Pq1|)$yhTbC5<UbSG!0s^)dQnfs
z^l?9feoA;2cp33gMD8tGvh*|9h6E`dktIWhCfQdas7Sgk=Gj^eg5kc8#$bM&2p-jP
zEnJJ$^Z#^F4o`|rvgv{J<&~xf@joU$O|049Q3oLLrFJEE!F``z>H5<0mHP|#n&Xr@
zxZ!9_2eS3WWY__h>06^Yrp;&vmF4ZHjCM>beP1?y)$v8gn&b4#*m+ZUUdPUsopO2A
zF)b_l-P)F*epo|XQ>?#7Bk*vI!<!7-bqZ+*!yFFD*a6j5l7)pB(uyj!UV{2h>azB_
z)%H`{70ed5l$#bK{HK)Wt+<Q!x93DY9uZC<vUB8mAd%bnmYJsM?<v<`Dfi!~_NTP%
zX4|#4EmJG)e-sp+1jSrX{DFeewwW@yH2zj!7wt)(&5SIMY*9e22=^j)BO3Xzahq_q
be@9ca`v+Ga?fu6BP1Wqldwkbe4a@%k&?y7{

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_347725.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_347725.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0a0f6154f85ad8a02e734b8e77017b1852560429
GIT binary patch
literal 3936
zcmb_fO>7&-6`olxm%H5MQvb5#D3*Vslr3yEk}WAfYC}J^W7JU_#4r*;#e(Ioekm?B
zyNW4w39JkQ7Mla<lX>JZt_?H>47ddfwD$r<2nn??RRIC<MK?A|FTJ#HmK42K6w5+A
z;LN@^Z|1!>Z{B<}{A(l<Mo>bFznl55gwQvP*(+j=*!>$2_mPftoJ14VFP^|2&n*Nd
zc#I4@=jqv-TK(#r!Otl#_c3mY(*t+-hc&@ONaqbS*YN#udhiGO1w+z92g{~JUA)6j
zgzMf)chH2)Aw#a)Q<iZoyu-|m)6mHEUyS}-8&CM%4}vHFb@#U%TeywcSXSnM-(Ph6
zuqMxjov;&_pG1h@W#k~>gcZ=W0#mZGgMkm#dBx#?7wde)XNBKy13~B=>0!-!R&`W|
zp9d}*_01B#Kg*FFm05S9I`=5>kgW;I9BlOdV%Iwk+Q|9}8xFCjykUEdPJ`3HVw7$2
zSw0}8oF*MV;`but@GCORY4*)g>kF(CPO}qa(W$Sl#c6a}JZr7KnFm<|zt}jxO+C1$
zkJ)C@s;-*<ZBDDxwgOp}ZTIOuAnBb*Er#t*^pUW)XBaJ`SZJKE6qw#yL5!pPLfo3C
zLDQZwNDNaxo|(03^2((cCg28&NtCmbG@K^pG>I>0vpN;xB%Yc!D4#UrI!H|#ngY`9
z@1p^0X@LfbwMc9lv}}_Yv11f}O1ZJmpngj6M--3KfRVPSV%cO?H?)jK%v&^4<Mid1
zSx-t>?$JORYzH%1+9p(han)~?=M!eq^8BSZLpgn!@)^xqq=C=lg!06)VWw@6h4-qT
zJ{Xd*j)B(hA1MF%W$!JM%v<Sr!swleC+6e!jF~zcpEgo<uSF8Qwy}`z1+F*Qr=?7?
zp#A!melESNL6-&#v(1#2FkyN9=LZM-E`WqKYrdh{yg^b%lKcpK2tl>Z0S>t6yG|rW
z@@I2ri+DZU>5guO!fWx{nN3mMRw9K!Az5xXRaQ>9mp3EP!s%k9-1JU4@{W6DANw4X
zyq|l&@NqG;E_b_Qn{u>pGB@OoJr~3IP%cym7WsQh>HL@0hS>j194LzePsr1i$1CgN
zh&#L`$@%tNd!em(=3ZCn##hZ7(uHTzP+1!KQ`4V2|Jb=MjkzP+va+_AyWoy(g_V3y
zuBXsa9Nq}OU1}_cPr0L8;J{FBs4!YQeec@3{I)x`t*C{T+%@;|mZIjb<gOI@ium3@
z32!K;N{KH&`KtfHXXT#3vNH6C^JV4IUrv^lQTOt;q!wCpUGB(pUby?=>W6DL3wrKX
z#gWpDzw<xdg|H!Vf;HW&X@iCe#ITo0Dp5l#=t3w0)kEYn5aauRt#e-Y%grQ1#6Xs}
z>oeyLKvIXVpZB1{JHh!eFf7|_2fgwF&u?S9j+6(XqVobd1e<y26(=x-JAeZG$By6x
zzy=5YMr&f<N9XoDaquB>;ShNc(7kqpVdMy(pcp^Ca{P)Bhe#UT`s{*{vS!Uxw{4o;
z$vBxdJRkvlV4;eMaL{MsX@d&Yw5QROk+HS3dCMT0Ii>Z{@XdH~$+%32N#OXIBr!w7
zaC+=zEjbIvfE@uURL_4bv~NR63rI;TYnV0C1C7PPT|2krU7)GrKU$<8y3Vn21!!DU
z2_q$vAIuG|j=96`;+ER-Og&Rp&y+r1SKoE7Zid9Q!P~#tQjdMzF|e)<ek~3@m(*uc
zM_KA9o?MsSV%gVTY%KC+zH3vIHpQ^_0|I_Bw0SWn78<_*GMtxkQsLwmil1y~|97h#
z6e^uaQQd1K22LfQ)(g9O+1hqFXz!z0ls)v(pu-!;cj+FGsBoRtdb8MfWz-%4b=yGb
z_(<Bg7s(DO%I#g6*#IOf(t{s>#zX80dgu*$e>82c_FjAq@3|vI>#*1#P1~!zmtMpB
z@Ei61Xxd)wz0ACK5P**|zQa;?hy8<~d}2wD!&61jjn8Kj1`X==GGL8t8<wpl;+CPk
zx5JWphdqY;-F<$he}}!Y{XOSnJozc>3&LAQPZ5T|9&p5X8X|_Zl(a1$6nU`2ykf9Z
z#heDu1>coUMnQfPYV9uHRvX-_-zi8^^Kwou3>OwlZI70IpM8+s5P#+l1IXl$=Z?c2
zjY~aGf=?rlBOB6102`^b5HB`)z_Z<T!o9loQJL@b>ml{=;zhq6t~BtZ^=a4Rt_|tZ
z>*#q?{`^0BDk4&v-Ej{UV-asl$XSRXjaF}yb4hq=F2S>lihC6C5+g7-Yf~v<rYzgY
zq)F`-xdB%dyJfuhsJEZqu28wUrP{Qa)E^+vT6Gu24;D;)DQR3J*TE{w63d0A62KUL
zgOq=u$Uo6r6#;SL-Okm{3U?a+q|$=ahWuo1^4nJ6b_0l0s{Pk-2Ua&j%3WvGsRV%D
z79)8jr&NMKgN|^t5@M8y1o`gd>g28j-0m1gIP$GBfSdo7!6<rSUF}|#JrDl}q$wDg

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_387667.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_387667.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d586b60370c61b70456d5cd7b12ea6d5c7f4d22d
GIT binary patch
literal 4330
zcmb_fT}&I<6~5OVk7qpN0b&dd2?+^VB3A+$NJCcn6D%Z~ZbBO++hozIBd=!wgY6-A
z#tG1|G+9O3SV(2^6t7lQskBl_6RBNkrOivF_Nfn*s#u_IbW5d3yDz-4Ay0j2&mI57
z>!lFXz4F|-_ndRj`R>nr_xNw&a0o%^{L}9zQ5d1GSf^5ia%1!F(0G6}q~R1AE4}d;
z_WHiGe~iOO$5Wo4%FxnV^Xc4_{B0TQjr%nJUG7m?F&5M~9ZfZU*G>!k4>_-kT5xOK
zxS$Dlxv@|ct#}uWNj{`Y)p+t8j)m4)xKSD$y7bex-cd&rweSO=^24*)>|+zRFtcT4
z3i|a$!;i}PT&Tv9tG7e2e75+g>>(%FlFdy+FDKi`4%z%XM4g90w#4dO*v23Y)=3rH
z2U4L<+E5dh|8876Y|EPOvHua96O>%z4)#i&eN&Bn<xrGdd9~eWH!?&Te#}+oXLIus
zMA~Cj?Y24~Q*h+!i@nDVuobATYQ%1`Bg}uUc?TR#Tj20UR(vu{C7WE-ZnmTIu<N;&
z8m~${8nAD$TWtAppt5=x&7l}SO4vqDRLo;O%BADxGz}Qmq)uX(a`D-u8N-B~rI<i{
zR*HsZh%rIpX*H=)K2GA937v8&Bd$@unN2eX)+7xO^Cq!qz_bja$66`AL4CvT!E=M+
z%M_1NzdmD9*|bPf)74p(7`JJ-+|%a1-SxDD?K<@{J1$|QOb-#|XVn>tm^27u%8jxF
z&r+W@NBy_rgmT2RG#apUl0H^?^?`EMYz3DcTbF<TtoOD-rp=jnLhqf7C#GRiMy5MH
zp=YdKlO%dAJw4M4z1~!xnlVUP{ouCNGc%`xNQFsRMn+8-Ftz@Z11C-lfQClY8dG&z
zCmB6Ox&T5D9y1JIpMzeuAt}7ro$oH-l~9}W)*AHQ%)jYgDFj!f4rln8)ZiY<pLB*d
zc%(GA5!Ws@br!>&OIk7fL+AW6rP1v#v=<{?MWt)Gxu|qI7q*hU<dG;X2J=CeFI-!W
ztP0)E;2KC;^Q~@c!CLNL6?>f_u!8Vi`7XD~y>dTVxUw2LxOAu(>MY?J$PX-@$)71i
z3g*XqSENo4RJg%y&R=v!)?{VzeEz)KSHSmAEa6r8@Y1!S99zEn$Nq=!73F~^hl=tk
zXXLr4xY2yO7b_6_=<Pdi-@ER9P_X{N9od9cLF53d4zel=73GO;Wl1JcrT`Ej#`h(f
z`w5)o2gpWKRig9sUR7bu9J2AYdJN;s<o0Sbd|rN#vyY&zRQ%e04etfrJflLc(#r*4
z6x-gqVsmz&LNOkqoouk?15aX|8|YTzdvSRSh@n($-l~$))K+v5s1Q>XN6-$~!RcXG
z>ISQ+;z#q_flrXe{n}r#{}5Y|igv2G(t7o_Us0Z*fyX4yi8eQm;aXwen^)`*TPwIQ
zur08)fa?HFF;QL7_)1jRwe9u7_WE%#iEQyx{40!+Eo`|b)fwglTeym1!O`{qKuIEm
z(fpqCdK^xk-k~Madd5r|nU48zN7C%D45K3zClk6yP#&Ge!ZegHGFEaTYh+E}z{&WG
zP6L^2T2E2#R#LxBWj&>XA4@fp^E&mXlNrjFSc5iX^jS-tF>dQbHOAFG8v1!WmDNWG
zF$j>CK@yWR1mt7Qsi`Ee2xAb+m#8x))qgOGL6Q^6OgyD}C<xm+!gh@+mj`dC=ij|L
zGOS*`I5tv(e}rkI5;v(ZE0b~)z|bZ;S2aXQ-e7ieEuoQ9AnJw3?DLrHxgajed3ix`
z2A=`5wCCFw4mv|XTP>{*uHV1zj6zckF%DV~-CryX6{AOs!cj05T3k{T+E`0m<n#Q!
zo9>|nx#WfMQ<FQm0EEFj?JLB8lleHaa-gRe?QurelqR?5)2=TMpDZ3e`J`#(@TnE$
zv~vM01@Yd%hre7?e(-c(_i`LaDExHq*%js7Q{fztT&Uqoac@!FTR5~L?g!5T68E?R
z8-8Deci!0up|EoAxHG)QwHCM{*AB3r2_f$X4fsh6sE`-jrUht*7R9{C5Z5%niAVu{
zqZvspFQTlqABAL(YY(i59nR2mDePP%M`7&}@Kg&+ff&zi`k;P*k|?)h3a3FvT9c}5
zk-R}_Q<mm%O~SAR<7vP-yYS|-svHJiwXe!5ejAum3!H|D>=2LFg1d;f6Z+kG+aA5}
z8t8qyTCJVX@6Oxy=*8DSANpR=@6Oxy=p}~UM!?7N=sG*P>nwGL95AcJAzkG){Z=vo
z?5bIFK(dmho0gi0o4R^zogM0R_J6Ea+*jM_UuUU8t>k!&BgdI60Ew-Zp}}#;Y_0x2
zkKSS&4HDhVrYy6DXBlUj3>hQH5;Hb>Fly30atZVqX4q3=N2SrZ@KQ#ivMA*xchJ4L
z)bcp{hup*5s&K{`{2Ju@^7|m|!%JPC2fhe@7G4$4IzwNJQ8!-L<I&Xf_JhuadzXt`
zTdf~bwHMCT`tdED_&oYW`)BQ|;<?xH^L^p@fBXOu%MoYPW5!t6+ZJ*R){r)ouF9Si
z{P)O0N=}7Ji+G2_Kb5qo2v@La>9aGWd_`V^dz)RM-i~_v>Fo-YN?WQ<7%A-`@}iY?
zQ8=A8v}{U0OWuX3?4+2pP;K}z#$O@%pD6q<v>$F4pYT!Jowg0%5&Q;_ywbS%e*XOz
zQRr>@kxwqkNAZua;*LDHbpO%@g65L`yVP$}Uh_%Rd;R&xe?9$|)0<4WNif3U7xD=l
R`DPZQhJ!0g#~sN-_Ft~Cd!hgU

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_404776.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_404776.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b5122b3667adfb8a426ef3396f9d677c3fe3c604
GIT binary patch
literal 4709
zcmb_f-ER|D7M~f9$1|R>oj90~gp`Dq53>yc2a$q+DwGyl+U!CrXd+gY@l1jfe<U+w
z^0C*FsaTOwD%q$H7@-xZ_F>%xsh~yTU#PS%7^5Y+o0TFpFM0De-ItYCyXTHQ6K^&o
zpv_2g=iGD7ob$UM^E-F`?D4oMxb9E?@!G#Y`jK?3%d|je<vBEWD4CM!I5k*((u1_w
zXA+J<mZlVX#PYV@hNsLZ?1)sSsEI?2?6}E3sPzV2GOJJ{4gc#WJ71yaUZHm>g3K%K
zA-62tWCukXvHK=9C^3{G**QH^bWmI-Df_YO^ryf4;C#40D%3%6g6x2Mg@N`CrPG#e
zgt4U6r%XSn*)u|&C%fulNivQ22ek+pH*zCx6nYsEQAj|JX~;SauE<T=jD%>=vTL*+
z#DLbhM(eH1%URi0pGZQY%sg~FAY+1Sq<*Yb6{XjnU|nZ1?GgGm$>iCxObvCJ*4akL
zXJJCzv<UOnxS2m{oQ9Ff>@-hNYu@$Ojoxcdge{CT+M+EWKXQ?EvLa=gHp$<Bd}P&Z
z|81xNH4zQkCOfTYWF)4pYBAp+s51c+SZ~!3Gvc=)*}}*+TeJl`Z=eq6cH3+V$cq9<
ze8^dQg{G#cpsQac+jiLU3Nn~YM6^-tOzGDYb-B)1c|S<2<ogLqn9<|dJ*K9H)kq>7
zlQ9=jBgtU}v+-0!25SnthCtMNLfE0D6C|d74LenBT-7nFPmL+qt;CgtlGMZc6n1KQ
zN>zf}G5sZG&J4i)C6+W@jmb)QGOVU1u&36Or~bQJwbK3Ap^RxN`3kUWEGC;yTxw`Y
z3nxv?n41ib>8gfZ5TPd2H1s59<SBrtM3UHXJ)&Y()pQue@Dvy(H8PbQ>t6r-Rrf?n
z9o5DnQKkD@BsvO%OeMP_!!WFFO^tTzN@A=Vdfo9*IGIut;j0t!!Lg|@sKPKhJ(Ubc
zQ!vIOhmQ329t8_-3fH-YM-?@x#MK}mARoW>3D8lN`q@qS8gmIFQRpjs-^!j{@c42A
z#z20&u&?ado&9KDY|Qr=$FpY^J>GnC;Y6u%U&*ttxVPjv1V(Q|zPIq}QqzHw_dxMd
z$=j1XyPj@|cjsJ&E6)|aC^o&|yI%5#O8lWG{->>vTg&{3Y~O+)=9-OWNT3&cUI^VU
zg-}TdJqbNM{`h!VIF&uUBzkg3jidR_*<<-}<7D>Cf?LY%HTLE^^YZQeh4I_F%I?m&
zzLI-S_JalR?KOIHCykSZrh<02r7XUkJ+lNUwj0~?O#Z@cZuYJ0>3Kn%k&Tx8#X`^A
z+eOE>!BX41r9jsswiGz>XuK47uOz%@dgTH}U`EYN7!xmjoh4sqS=bGLSnk%j8|P*&
z=dTv@zp(GDz?4#ICuw$*W*=!<Nz(>Rlx%hDf{(XaHj3~;+@TOPViyj}1qh%f0^x&K
z#tB|ET3+=5nzD<E%#8LzGC%m$=dz+Wk;5t}Ng7cZ3em3_kKQz%4`R9MQB`GY1R2P;
zp`Bpa_<iOzu`-)tr4f^1fDSjx$LMz9Td&B$Oj?DULtMs%9LP0#2Ijs|_gJ$aJCNfZ
z6cOaQNBxeq{J)~>BCk_GkW*%?RT`o*ylxj1#J50bH~;|tSL_6*mE{#HyJ}y5HdpNq
z1h|3PYqLO8i20n5`|`ixS|($k_J5>A^t7sU$T6T@EtX1lOz-SaCZmcXYaNNmWGs<R
zbX<+6qN5#JY+C6s3j<I-*~38rJCo^z631MXh%tLTrc7XWG?mn2!|7C7!(5fourH}h
z>fy1}grbI1L*Wp1Uy8)j%7?0&0&0!QvFj$G1%+3BdYJwUi-0I>q5%dsd7T}GdZ3XJ
z+GMQmhaQ&dIa57G9N^aWz_7Da#Y+h$lg$eG3x+q_H@~ChK7W^=^WT$-^z$9T89K)q
z+{}2s^J}R%4))fa_k(wXbEofh6%RjeeRsxh(i~9g*X@sXKka(l^`~y&7+%OphBQk8
z0!y_U?X$Z;yWzW4W~#X^`FFhZ?=SiH7aPm|Uu4hEds~2rUHnY%SHD^C?s(SLRg4rr
ze|G58A1?p!@w1joW$)!@{N*LdpF3}yFVKa<WvTs{xC>a7Z7#4SwjB`7gl1F%j5qjv
z<E)s!cxT}DKw<owD|4Yg9Q*cI@xt#<5U-y3hUR|=PA6B9D9M}sSUmvK6@}ZrNU<Sv
zUOOenfPCuC7UWE@=8|a{4*zv$t#!`G57`GbZHC^`XpC-C1Nqpj&oKiZG@@kZ3BbBZ
zK2CORA^JCqwlRACHPAC#I`?lDZDaJpYoK>;Df%~ywlR8<phpxCsnowrw(c_gUr<0{
zX*mMtWKLGD$D#^$%I0}i)D=w+M<bdNKCF@rxlDe2ah*C;-|11i)|ih3S?q*!aFiUB
zBS|@_lG<eQ8CYDZqNU@ywuUq{f{XBBl?oe75OqgL^&Hqgfm=Ih(&3`FA$#^`i4wdy
z(Gc@}`SH2!57XagzRSGePiFg;K;LGx<u4TIxxG)EPd$%4FU+%?5XeUg{<5$$dwQ{b
zSN818XC=0^K8|Yp^QY?LFmp$r1fI4(Zhs-X4@a;~<7^e4|0hm`r=+HAzsZY1ulgZb
zh7dH^S1oY|<M6YShGRbFElD-EhGQhAV*zTSrYn<Us#)hS_XU(&D1DAtQpZm7x5!*n
zb7`<xUDxn%DlUIVnJKGF$)8B1<aAs)rCx;8q=aj~g{I=5Y5GS>`YYx68?|$hcHL^d
z(OO}e={<|^8*s(A@{<$f6$iygrnVAlqrLMk=@z<yDh`krc@L>v6(`6Qj%)<dbCDiT
m@nS_FlACh-Rz#3i&e0U@`AIrTH~oE*rhL1~-i{lh3G+YJ8>bck

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_414029.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_414029.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1d98fa0ffab1e5c77ef63dfecb3302080eefc737
GIT binary patch
literal 4266
zcmb_fUrZax8J}6N*SlWZU>w3hLPJE3$kzgile?5tLIfcpx+7e<rs)MGTKT*S7>rG3
zmjt-Aw22~}tvq0^mGHfB>cf#H(lt`5<gt&f`p{TL#oDG4Qh4E^5;?9?)tC00^`CAy
z7ZM#K?d<o>H}lPJzM1{aw}19}-3ZF{)NjXvAibbUxwuNg)>9A`k&I*<L&L>49>$i=
zOge^Hj1)X>`6&-AzGX&X$33sMQEh~g9e3FWCBv{w7GzdI<F()KDLem9JEsUEob0;m
z9ClZ5@psX%$RI_mc=pWVpnHS59W-6N10S9HP#TQbfjYtDfM@FqhAvUVv@b2=pl>fS
zeo(R}-MU+MOk6{V;92`9cKa9vLDPi?C2vVl7j<?5w4_Hz;Deh31amM*7ipdJ+7NKx
z_oaJvkIX!DJfN7Nj0?rLz1Av9wJoWvz^7xF-?eT2nqB6v*|Yg;Z8KFlBDzoaQEW1P
z$d;q0vvVTE$ZuPrud>*RFz&C26+!pwP8#3J>g)7cy^i|d1x0NY6m`XsrP{(oJr#S-
z!Rbl{bOvI}Z;S0d+gx=OXca-<rw4S;LuYw!F`7j|ZjjKUGg|HyWK4E4tWKEDgf^y-
zAU4_XOjHeG0tishZ8BQSbWf4QC<#wWQQ73eBpe@AOg5GX%V15It`QKm6Cu-~PES&A
z+L-Ai>J6fqPE|_~C0K9bPfVuoDm<T<_>zeSO@}h2njTdnQCX2@B$BvgdP|x-`>JYL
z2|b{ugZ5)1iI{4^Gr1XQN+YU?XG|9ivt&k|H61s@#AJ!80YaJDiv84jaMDt({QGB}
zw-RJRoeD>k&arT00v3^ow}(fSxYntXNT;SuPIZFT84F4A1eugRy(M={%}UTD!6LLo
zT#6)MDJPGgJQnH#iy4q?U8M<y#FZFn0|1l-)uZs?8|XV8iQf74bbA)(-A%^1g3Fx>
z-<c`!zIABtN_S<3vaY<?V)PZnn#|$!PmR7cuP+nG=sACD&fB^q=e+M27oPL(c~{z%
z;j)*P11o&{Dt|1;AA4N)r0G#po<D8$todp)C$i1CKwHk&w!AOrYd89z3*vl3x*^k$
z)s|1J2%W1!C?|v-hn~Fu=>5FVZS=0YJ@akpwv0bBv{0WNT5%s*I-GO28t0w^wo~a-
z^Jmg$vVpAnWn*4!1z>`hlGBa9{&?}q!j)|AlK;yK%l?)6A1`aalkb1_^m4AV=MO!(
z&hxqY3xD+I>OaT{9~iw=fwA1@7jIuo{W9}uR{JY^WDDYj$d72%LaPR-A|<{85g{);
z7Uy=r(OyJ48n>EXt&$FCw~s2BflVDUZUn8&3Q45n*X)U_&vlLRF`IOPm3~FrO8GKT
zYr$T=5^a6Tb_>VO<MEE;u~uR8YRs+wkG(jJ#?UI`RTxlrR(Q^(J9XDYA8doDRd`Wm
z%Jw^03zR+S?1&XtxR<cb=`4(7V8!$s+*V{qc|1gZXFIox-39Dkx{oo^xoZ2US7!S;
z3OWZj{sU#sKiHzoL=;6<TT0iu#go8;^vncBpt7;>6wuzyr~*_KRpE1wYthl^#I$O<
zZL$*>FEVDjfiJXKDHfejOs+@}W=&j~(WI%wErm#l5h-N4uY_aM%6UQ(#9{`MD^g&P
z-*()|I{<>v$dLWCYNZtgrt(mg35~oBis`ZQ4mk-;hiS)uKxLqU$2;Gj?l;aCcwwGP
zb19N}H(R&RmFJs{o<fNc>N3B`h8C{og+oSfLG;jX{dS+xW87E+<!t)wig=Lv8AuP@
z8%*JX=v@^L<irCjVspV;Gk-mO{hpL!)&<|H(3le%vxoD-L0}W#zE$6mobSleP~Lac
z=wEa3sZ)18d+vMdS>sRgzV>H)`#Rf@^=H`}+YIPZA;5M#6V3)GR6fmT{P)Dn$BS1N
zu4Zri>e^E1>#nc5mWO_Gx=`EjPZ#UtHa*DWqgXTV-s^tGHj<;T;s`vILh~OQv@Hhe
zMHEFz`)y6H#cf5#G9;F^?4U|E2IsBRn#8vI_=kIAv<f%C_rp}!$)N+2$<EV&b(i@d
zo!vw9Z{}@h^!#g}XZAGqZ{}@h^ulYPcke0sH}keLdXb{n5pbVpaDyJ*4ay;qRZYub
z$ObuCxfzWprc>5tf$v03Q8g(NRu$>^20hdp^ry<+9I`7XHs}wHz2#((B^|WQ33;O&
zC-kDRSSiSwE~2Q@F-^6xT`QPXii(n2k<e-_2)1O3^nv{%?bu;uQIJF!{oi?z;F}lI
zVx}i^V`=}x>2H$vlPmlgqX(F1{y_Qwq*8dP?XmNT_mOwS%5Q{vpqDy}oz|KU8U3kC
zIkw5}hgACW-F83B(tD5VpEN&eUJ=d$v+e3<ukid3Kbt)A1dKt86@z&6<=BhV@Bg*l
z9rRkeLykc>&6?sx)e(aXe;RUMlP^oeIwOwpsAdXq*{PZ`GgZE`E-P_0K}@Ih8(?j%
zwLzv>++Arj5tHvDYvSUD@~0;g@^nn;CYNAVdSFzVv28jq#xIcPZ^-+1ba0bH4F7r4
z?WRp;KYqLL(a>M?Kk45(K;Cj7#$&a<484V$GUpcu76vvEh)c@Xv9Ds5__ThDwrurc
YguUN--ot^HGZ@tz%KKVwix!su0@oH*4gdfE

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_419949.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_419949.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e21440639ecd5b03909d27f70bf4720c913c163b
GIT binary patch
literal 4266
zcmb_fUrZax8J}6N*SlWZU>w3hLPJE3$kzgile?5t{s=-sbR}H5rs)OcwDNfuFc_Q6
zE(vgJX%j^{yLqr_E8%<N)Q2NYq&8Bj<gt&f`p{TL#oDG4Qh4E^5;?9?)tC00^`CAy
z7ZM#K?d<o>H}lPJzM1{aw}19}-3Uti&wn!>1nC7;D#cY6ww{8ph-4(=7#b<P@d&nb
zX38<bVx-^+%THx!=`Aw~JK=e?jcTKe?6}K5C>usxvLLexnyCMFPucl@+BroS<z&}g
z=ZL$Ci@%FTL<T8h)w5>~2i+Ug?U3o}8~pJ6kEEf99jFsb4tTbH!O$gYnD(V*0`%=g
z#t+K&q+56Ej>+o?5j<xf#cm&iAZWVqpzJLv>Y~n0f|m5?2z+q!fM6a5=_0L@UK;}L
z+rD(K?va^?jt3MolnJ5qw%1x!skJ5575H=v^SidqU$@Krb$d2{y=|r%M@0AOK8j7o
z57|oebaq~Z82N20^i>yI6(;;uu`1|(-AUtHU44UIuQyQtyP&AAfuf-_vRqr3sHalT
zc{p9kfX+Z{`E9Y?XPc{`3au*W`}BbBdFZU{Ek<)F$PE#CbjB*Zf{e*dh1E&Znb5`+
z62vAOo{g$OOaK82x=lulneJ(l7$e~+DJq*>n1thFipj<jVHvCm(=`gBb|Pdt)R`&j
zO&d3zM7=>Y)2V6+q68aF{ISXOUxVjk6JIv*km*pSRnwztBq}S?tV9yGOmA6}=U!DU
zE1?I}bkKfmBoR|BcqTV1O>0Co@vP~BVV2CubEe~Fn3yb4H9#m+TdAMg2u|8+m4E-Z
z`&NQXs?*_!(mfuIOu`}(@y_s=64$y_66w~Isp)Rex?>?Jo*+}wr?=#;={X6SBv^!&
zh)a<KEal|!o}QCEU@-%dt*bPtkhl^f9RPr`pn4QOd;@*MBhj1bOn2sR!QEn<FS^{R
z@SWKr?^}oVo^(%kIOi&eZAO1ltjiuw|Ip}P^ZK%Zte*F`=e_Mqa^Cxnaq&6t&bZR9
zESI~o99ZEySNUUk{@CM&CoPX!3jArKcg<IyJ&|k82Rib;j^%xMU#BtfTo5x&>85N`
zPFp^)B6P0`p}Y`!9D4HpqxTEKS)*^=?a6ecJF@=l@Iqs5c*T8a>2TiNZk&G(*iNNS
zWzM9}<N`VMi{^sZ4!{I4C8wKz_0i(hg{!%~CI1%}m;Eb^-(S{#C*S|<>6LtU?;m>e
z-52tW7yszbH-3;8J}~-f0%N()FWtVB`dRkVoc34t$QHy4k?+x}jaE%iMap~yB0^qx
zEY9tMqrHf9G+{NrS|uIOZXZ=P1DiTz+zeWU6_QBDuh|pVp6fd0V>amoEB%VLmC9wJ
z)`PurCEEH_>=url$KxHxW39^OwU}G~AA4~cjiFU0YA~Sgtn!>ocj~Ume%J<4tMa1E
zRP1-K7N~gA*-<O5a4%t<(^(kFz>4WNxUI;J%6N$U&US7Wy9?O8d>><^bG7zSug>-p
z6m$-4{0GXsf2d8FjVOw&ww14Sizk5x>6r<NKxO0MX`sEEQ3a?fs>0_U*P>%Hi5b;&
z+hiv&US!;K17B!!QY<>Dm|Te<%(}QTt4Y&|TMCg9qf*FpUk%4*lnaC;h{X&hSE9fm
zzwNk_cK`&Tks<qO)lMr4Oy!}f5E^+K6w_np9dZ(y4%3eRfXYBck2f=r9xyHxc_G84
zxfIF1n`>C;De$dEZ?Vh>4cVXOLJQXl!XcxtD0=9(e!Ji3HEyhdaxQ&tMLbCT45kO~
z4W)2V^sb5r^5TINv9;)}%Y2gl<erpb)&<|H(3}^VbB7DUL0}W#zE$6myzj`;aKU%f
z7+7=hsZ)18d+vMdS@RDHzRqWS=Q`Vz^XJ$++Y0DXA;5M#8_oqNR6fmT{rAM|M~l}M
zuH|n0^7>NftDY}=mWO|Rx>(=zPZ#UtHa*DWqgb==-aGq@Z6-%y#SwU_h2}prXj=@_
ziztec_S>3Xi`$BfWk@V-*+GqL49;7*HHmHa@pt#eXjN{2?}w?flS2n4lbxpl>n`&_
zI=hGH-^|<2==s+`&+KXJ-^|<2=!Mrn@7`1NZ{}@h^dd#CBj7&I&;~ua8<ayJtD2F+
zkPULOax)rHOsA~P0pE$5qH0nktSZv+4SJ|I=uefsIb>H(Y|tMXd&|inOS)*A6Y@qm
zPUuBru~LvVT|`l5Vw!4WyLK?E6cr`45~0;w5Nyd5=?D8I+Of;Zq9BPd2EOqi!Iu%!
zVzxJXV`=}xncpVwCs+70MlUc?=0N%Yq*8dP<FWIJ_mOwS%5Q{5pqB=Voz_|p83U=y
zdA7ywhgAFXXYGENrS~2;K52c_x+0tdX4}=zUg7yJel~gJ2^d2bD+ck{%kdYf-~Vg<
zY|v}%4mk$lH0w$iRaXo${29o7O}-)#>x?)iqM9kdWv6P&>~!VMx}wC@1Tme~Z-BM6
z)&`kkX?LZuL`=Sqtcgn-%AcM}$TKnJEV&G`(gUN?jBV3_F@AwOe?#8Cql23qV))Nn
zZntbQ`|;bw4~PGv|4IMa0rHjuF&?Y+W#}#3lD)7vxG=bhKwMJ3ihUWg#HWp0v}LOg
YBkcX!^BxYooW-c_P{G%BTePtJ7wzg)<^TWy

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_433589.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_433589.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a198a06311602f867f7faa211235bc7c199013b9
GIT binary patch
literal 4625
zcmb_fU2NOd6(%W4B1MU^BP*_*7**`XjXESw<gAI)CY>EO$*|PRPn&GU0D==~Te2i7
zmsDiC6rcnFVxbR`fdW!qHt%Wa5?~9EA$i<mfxTFhF&kV47>Hl|=F}T7^kqAj5^2>{
z{?=T8_nv$1;rY4u@;irr_4zymw3E?4O#KF^r+8vDcZ1k^3`Cib2#HJ(<MokDQsWM?
zPSfMGOvFt+)~oeVqGU(h`&}NMO;D2K7JaX=Fz%LEiI(Yj+xI0U=X3ZjnVoP+?pw}r
zkLefqAThUyagHKn&erUmCBvQ#tai+BkDUMc>7NN>QMSp96KDrKTPL6|6B=o)#VL#0
z9wqW#V?D<<Nz&UA7A287bFZNx=g~d7V;W{TPA7C$cg}&;IS|!7xX*cY61c7%T%S$>
z*S&+wH`#Sr*0x98t8)@{-*FGe1TEeiYn?@CjS*H`9GM-V|0R}uZ_H9#lcg4yMd$wi
zDC}t3Ut+_r`|(ao<bB#YH@$t1gVWj7v|qfvbv6-iw@I7Ocj+`fS=)L*Z_@)<|4Y1R
z`@R>F)6#~$!8+=i>XLOI=inT39ePKrebTA;F55Aih<DheP1xQBo4nj@FWZF9>p`8n
z@3QU~Nz4*q_ZY(0ebSN&QwE(B)oH`2Xj3u@lLjr$#MH+6=0{-?K`2DnYfxIk@T8G4
ziNvH3lMI)L#MGp0&<RD9U{x{P6F_Q%5yPQol31-aWjK*~4QYl`(q_}L;gJ(^Qch`t
zHfuOlO+j*aw?Y2GphkZQ4~)W?;gHj+;Z-#hlVo8=KuXr|HD=Q6cc<nm!k>`gz;bj{
zNvNj3hHFMhYe+TR@J@qhaL5^hl4cDOEL|6oK_gWI_oW%bCCvy*MpN-thFZ37FAQWA
zG_9t^s5~$wMyDY{C3R4ogpdYQ6dlmyWO@K*1Br-`QczO(byhl*o)v&4KtP(35~2!(
zb#!p>$H#|Y#Rv#ZqQbO{QgQ-?!2=8$>SchjJhATa77rE<R>+#CJAe8K=PM2shDsMJ
z?iv@$kFIk5Qg2}>Kf1>IOM{iY)xiELzyEGWl|Pt2v&y#tucsR5uk!tM-q}{Xb(Sl3
z7CKA2E85+`Wp-eNja1pl!^oo(4^GtBQ~BX14S~+*2#l;Vo}#PZn%9ciLiS5ko?Do!
z`Fm?jAG{0x_ZRw0?WKzg!OF#D&)bXps-C`jD8~xNiYE&vD}jo7r>n;GK^!bMFBQ7J
zyi~rjaHTS`*na2C-S*|+kM62}iatL5AXXjtNi{h9m(gnQ+}B5{!Si2Vs|GJr*$erR
zRiD53S>dx%q<nng_zJ`v=&$+S&7WDPUANEOI5&T_G_iQ}@AQE!*joba!(A`#-hwXL
zKw=;X0;3zAZ+!|MOPSD#IOgtXI@yXleGC+Gnyqa+7u_UV>&ZEQk3X^<O`=-MOH>y~
zTId(Il7G|NR$9#w;A3meEq#9t&CiMDS2%mpIj3glvsSrFciI@{(w(|%deq!ApA~}S
zu-0#qn&0BKDm(OT>~?DbOH!vNNW4do#Yx=_7Vu66t<~*OqAfeHPcL3~zhvEY-+8YQ
zGfC*~c;~hii_-0=E)!wb*j&%$DKRapA!Q;o6B1KWNSX~LGpZH>;EYaf{1@6>&ly?N
zGDr?dF~ChVrldk+Ax%+22@y@oCX@q0<I4sJ?NqTs!*fMUWaN(#Qjp<Ba)TLFQd(>>
zqhwUWRfi(OpOR-ZA+2O(Bq$R?#PD9qfKamWt`qP%It7@WOlz}3A_m}ufyr>y(b%A`
z$K-67+3_72yn<qrv6Pq)>Xyk*P#?TzI*Iy$QW@whd_@PaN^dg?q7%T{iv_=hE>Enw
zncLYL*-~%$z`}vQxx1h6Z!L8lukk}m%+OkJclqkV)%@5h>nU~>x=NAKwQ_bLTR{t-
z*Vw)l_E42QRAUe4hgSi>x(nT<kqY%&<_@#C>yEd^?q6XKSJ}fgHj*D%<Ge)xqZ_07
z;rz8He8&p^PL+RW@nVgCH-8p<m_K&&^Cx`w(w-AF{(~jvgLRf)VY{kqS7l#~-J2g-
zr#ma{6}n3ItTOC;WFEn=%5cyZnF3R4{{l!)ku9*LeP4K+$+pga`x&QevxD&R*n`rk
z8rQo-_oDY8{3twj!#M$;^%ezvnTQd&=0XMM^&L$jC8*$=3ZoV!FceY^ZjNj!D1Nv$
zO0%H}K10d^EPy)zJjwYX`1%ri@ZazTy?;GzFZP~!1@Eahy7#ZA?Zw`+ui(Asje7rj
z+FtBEhrQPc08#JQ2EMu*7*L@2%Sa-Wvo1-#9*fEd*ZT&i$*LwqMO7A#Y~U-sf&X2b
z*^%bS;0FG0Y~~yd)95JXIicE>QV8cL6QIJh39gxhrZyp<iEr2^jBj;pYcpMFs`AiJ
zVSN-H^^jTKt?_O7v;XoEEMMdbTxqy;ZE^Sg%pY@K<(8R~`C-7B;-11DsQ1Xl{)f&-
zz6ZW#sK`dv*<eYm>@u-ut>^9h+4)bZba%5JWXm&9!ENiI7T<pueAM%xXPN!zRrI_m
ze}0IbO@{CW@?$0@hRMliQ%~pr{GatxVIMjIJ8AgqDeX`Ken~P=j~k3dA$&RNN9c&h
zG=qgisA}>|8a1-nr;t}6Q##F`7xQS%12Q;Bop8Fsq>_-nB22^e17$u;DpDpPpF)>F
zHNG$^E(A9nBuPFceE%f&{)6zYk?z~wH@Y{e02y8qqbp*vDki@nV7BETD6h$X_Ffm+
xSNgboe&PHk0pz0m`^4`OCiytHg*jWJBtiPV@xD(6p3RVi|Lqzdy1|*g{0|RgmjnO+

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_459560.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_459560.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..90896d50ab2754b412d09daa76d84a5a8bd481f9
GIT binary patch
literal 5092
zcmb_gTWk~A8J@An_Ke4NF3z0*CWI6tAQ0FD+66Wtz=kGi>9WmkwA+#KOcFbe$DA3H
z3uDPpB(V0uj)Y|M)S!JJyC8K}T6J0N!|r=uFpi3Kno3BUmq>j`H|<Lw+Wu#J$<%9Z
zf+NqF|NQ5_eCIO%e~$m`blNE>Hs9w{6Ap^{fiz0RS|m3A1Vow=DUl9Q<ApapPU~&c
zjCq`)DTxm1c1o&+w`h`>AXu#|6DHAogSlU1kK05>qJp)RQWPaxp24?D+=NxM-C)M;
zWmN19YMeJw5?{9Kn5VtmIx#znZ3Dx<I{iyw)Nh1ofi5#Vn}0Wv0je~SB_#;$$|BPD
zi~TXXX4lNqA5j#d=Z#uSr49^%*0}pcYcXEqHD(%GF^5Kh4eJ6RSO6uBCw0uJ(ZID;
za9x@SxNHTt#(=i8PzLv!Q*(%>2j=@^d{APwFOYXt$k%DLL9U={tkrU(+Jcv7sNUeM
z$_CKtwR$ohk$%9GW=CTdc);m4cyN`Sm5E?onJg2UTeFb)D|>Iy>RtnT;|s7i{uFzx
zNox`<B^+cNWOP~ssbkGrV}a6|3z`eC2V*T-OErv|DOg_~SeXbml*uwt9&M`uZ&SIu
zOlUP)tLAuME$sxFny0+BQA9T7WJ$_v!pw|MnZ_1bosy83#*A++pcMNzPI+krL!rD5
zY*Itm9zpUX^34bV5nFx87oL<b6Ow%*^vc*a0i=4Q2b-1X3^A)tVGB|&BNa31d_=-_
zDJ0EEVO3D)u|-j3BzfB~{Q))&ehAM8m>$9OC^kzG1v?ZK1w=`h6OcTMoyC?o|Nl+B
z7m=NgtsqBWF@8Cu=$Nr}PKc;T!8TAU5=9O@hfU%<5txV&yjOe(Ge}WIUADjzWffce
zvNSOPvUAuf&Ixi<RocLr=b7c-zwVxu(X<lr`K9hDpMM(WKn@@9O~R<V73A+$rI|=K
zw7Nq*LRdyK!lha9U}RnZmH;DG<*?wFVcbXGI{sGgA?U$w!5}J3ODHUb&;dYUgGU*G
z&=jZEoHfah6CY;|=bYQ)XY)2^s_y#LJnLHHoyp^g<EaZ7TaNd{2lISQYFFY|eDJB$
zm1@fD&(?Kion6ZfS?2*zbJeDLGb35IH|z2)4`yA5;^(UI)>wPemawI)nTyNr74|^9
zf0g5t&57nzb4Fc0vch%82f%*vV&dZMj`Y68eLARByCd0^=mM`@i#wMtuh_lI{aO2g
z_~})^*q7)_o=BX?xHHO~)*QbZ0J>_EQbM{tkUqb7KIhsQKUXr)oaxQh?OLW+?EB)U
z^NyO-k<9KT^Br&2-I;alS!S}1{qZw-t~PZvu_Lo*sq4<cEVq{+s!6_|ct6#X?py48
z;@*>W@5wp4;%8SG>&<tsy?bjcHL-N`FU;Oem{kgOkZL!nTA}h6V=0gnMWPyMZ+;GS
zn$oBs;Z_uluEw3-3oB+j57Dobs;<-3^<!q>8@(3om-Ix_^dNvc2~y<qtSBPUuHccT
zXeOg6#oZVMD64B%MPH%)4CEh?EXTwwD%qZT39=<>>#bSJQOv4YG^;)uUWNEsC?Zqp
zzfP;p5;s^SFKAoQ-v*<uk|j!Wrqn{eyJTzYUFz58<N5mZbM?uLG;Y}~QKGpt7STd>
z0IGY2oV6quCP=GUvXvxaEUaBMiJ$taE@$*rU1G}@r`cZ8S9Lj~uj&$8zU*pqY2Gwu
zf+qVFPE53B(-_z%CXLlNa(;Ti-iKUD3QYmJD!W)K&qU0o+1{hP+~~s2_ojRi$ukpB
zAUFA^JeMSOR+7S=Igc+adc^s4k{Z|l3uVE3R`RJ)BzeRDWGp2hhdrYnRhB&=ADWar
z6EgA?50>lXaHuEM_5Xk-Buw(%Lc+8t#2Yq)1<YItNVC{li14^3EX}DxM4pw9AWsNA
z*#28zC@P&nNJiKKdC@-wxpF3=&I_Tyw1k}j1+qd|4NOMmsDkYV+FHnrdP4B>6>$r@
zWE7YTgnc1F$AZY*q83sSjA$RJNJ2x~NYxINLOwx5dPDo6jUC1ugx&#GCp^jxJ^AE$
z2MOS*OX;b_smJ_|M@;`CPk#<-e#g_sru5k2SbQ{ZV{b;UMSnl5XC{X;c{Xu2)swoM
zo?V>Hpv9{>$L?En9%A%ZVl4HWO#L5P?zAj*+-ZjxearN;;NjX}ygz<<)z$FC)tPm5
zE?vmEeg-MZ#@_0?es$H=@~Cw%=Q{I<J+sESo^Y*Mt~IkO$F)Q32mMotQ!9LX9y|{x
zhCdkvXT0+Xzb(seTj948$B;ii5x`f+?t6Rh?p^NrbpIE-9(No`9ZnxxJeKLd{fmcn
z-?e<x@_om*?eXD!XV<-<yF<&DJ{|eu!sE`~)IfS@aVX=vJ^XOsyP<D}zQ6SCNPOhw
zq}G_`OkIY_GTZYkmuKzz4+!}2dA1?XHj-a$^S>H-i*=)of<#J^?T#Ghi4VXi;zQ^l
ztcD++av>K3vc#JvsMAz{iW#pfWSdtMkrv@@W;lXZxzfOqy~vHxhNI`}TQhAX3;5Jc
z<pgEcAd!idw*l)5{K1{@4WfTFYtKi|z65&H8=d=Cv-W)S+)JRhzfttBX6^atd4gV}
zAox2**U8phCr1&uB1A<WTzssebS2=Iutn5wC%h^ts^Ir2l5iLuBGTla32b2Z7#l}W
zPeu1pFN1zgcow)BiD5*}Eqbu@GT4SBB^pu{Lxd*LS0SiKxGlulS{;JnypKkq|3e~p
zP>;26ERLW1r-R~LNj|}+`cs#enjS>|82c=?!k&otL*PqpOKgMlKE2fSmE~*am(CUL
zWPD(aYfSkv^@U)#9S+mCMzTzs(GDuhvnP#qOiR6AHGaMQ%k3-Nsh6?yrtrLuoeh?9
zxZ|UGRP;LaB|&{Khq$JYe-DP>;u?iJ8D>iq(l>@V7*H_>*;P@cxd_seDz;vP{7>?-
ze!JDzQ(qO#7nW3*ltbcYl<uvtitO7nvKS3XC(#&qCC39L1l5L_rs*Fj$6qPu->CKt
zD`jGDwq0x6FtyU&M}FyvU(WjFA1P>Unkkb*=WiVAqFt#o>EXrU4GPF5>0an=NGBgQ
eZW7Ms?`Vp4{^;nX-T#=QshXWRm**O<qxm1|uLIuz

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_486455.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_486455.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..585316d89ca0715c7484655ce1c9ae683321b295
GIT binary patch
literal 4554
zcmb_f-EZ606~Ck?i4-ZxpGoY*tMcVm17ahNo49R~&5qNgYvOfDh9yP|LKSISwj?^2
zbS=9SK(_^AA`fDotUT2ZduW#cLx2n!_Al%us)9wh^MC;Hi{G3&55r!zb16$<T*XZ=
zUx1hAoO{l>=YH^a4*wnwhY+*}_)il(B0^6oQ)|IZV&iW>EFlFcOd5?=-^?iE@@&R8
z$}vb~CS5-@)9PDcRc=yxSw^`rR`Gqq-Ps%%4GKsR6i!8xO+VFD{I8G)RADTj1i$f*
zhU$^=-=I;EMXFf$EzL3U&>D3+LV`mVetYI)c_dj|7!~{B@xik}Sh`4qp+edwf#2E`
z=FaALK4>B{X!_>Cem;y)9+}KbJY%vi@vO%)x79C#tu+I8HfPN9CU0_6z~u#xRp6&q
z5CcCCVpCAqyS_Vg9ndC)>f75Jb*9ll)mIhznfaI<o=^15*WjX<f*DfS+Pd<RM>|qq
zP@OO(Q=;clUrpGv>IPS9vbAnnC(N+vr#o8r5%J8~I6~1AVbqM85gJ3j$z#_j*65a4
zo6Y8`<x9Q0o_vehWVX!12bOR3cx|f(T_@nqRqsQqDct31`^KO-6!(u{dcDSLx^b3p
znS?$?{F*VL;y8opmk<{TYotkN8f)V?k&#mh2_$eLJFXHgttAu~)kts*NaI)^@y~*#
zN__fEhB`AQh#%|Mu|fR0p<y-NMwqLF9li$7RU+vIPARIKld(2Sm=WSrr*%xPEb&nZ
zm(<d_8w6o;gjMDUpOa~XszQ8UBrxHyZYV@h=4w*Eq2kO@5`^hxWiCftz7I@uI^COC
zgZ7_KdS^8}rB5f4YVSlMIR!y$*&~T@HEZ<hIN58cndx5OdeeP!R>K+j^I4^5dQJwB
z4DlOUR!(ZLivEG){qMdDBcxUKsLE3+&Z=pA80M!aqYnaJSm=2h62pZf_K_k}4s}{*
zDx81un6s}Wc9pm;Yp}uvJnYaGb`?zDv)^-mR}7ZLm^EAxqt1SNz#3i=#KLZSx6|w>
zw>p;FzPtQLIQm%VFA4qkFFhE&H(C~cZ4K6xTDDOdT8%ara(1rB6%)&?<>+DS{7OhF
zblcs|p5pmZ^PzI+uytky;y7WSD4eoS6<dq??T)f|&>CKCYFXlM@x`_xUOrZCdfWP_
zBDEK}lC;k{yAo+CjM-z(wdFmf_INq+OY2-kYIPKQq<Ezy?Oz@)N$-3&P?C;WXDdR)
zX}7zqp;az$<NU(;#Y@g1`&yA*Zu<w<y#YIka3}5d(r!0&$xW~W5+MqBE{M;=9bZBw
znsmi4cX=Pky;hsU0KE<M6{Z6;>Yxk&{|alS(QI3+=^XR}+tOYn6os8S0ZVHFJ#Tv2
z)UV|;nr2?p53{Ww#;7NWMhU@u0f5|gyOa07V$?_XE+0^+HKfO_t+pO|UiqLAt&N*O
zqq#;;w$!K>Z_{4`=K8ttrr+eJhGFkSqrIl7)b+k%40>JMW(LOGGljItm^89RC*rHk
z0Db{Z?`)n1gG{c``I~k9%P1ZgS^F=vHCiONaGOGiLGvG6nMmoe3w<$)D6!80c4iY;
zi7A?@gUE>KGt<)=HezFH!kEEoOi5*8r%%O>_kTRp6PEx@Clb>t31YQM1gc0%LP;%a
zq{e5o86B`s!^sH}0{AlK<aBCEC6by}Gk|Ndo|*@c&ZM#=P=zoO&8j&=p4MhnENf$O
zACWH2fUAsp7Gn*&=oJ^Xd~hU`lim4cNDT++0(U`2n2RKGaqz1A;qNb>9hNVDG<w#>
zbe&$WIsoHCR8{gKB_06LJMif3E<~<}P)qC5?pwR9-&BN9p~LQQ`kd=av$tl8_|}(Y
z;UK^y;9aNP=?oRwZ~5E&a?5S0EF89mo&@<DxrLm=er-C}e+cfWNa4Z-`@+qUMWzxI
zZp<yrIW1r3i_8zfj!HOM_{{$7ro70m3X#V`M@i@??k@}btf2}o6oPipVQmqn+GH3z
zWDP!P?<^+1&EC$If6-HF@3BT!BF#?EAG;qP7$_YW_-k|dzz5~XNx-%szj)%SFIOU+
z5BFXzN3K2OuRRYS|DIwq;33xqJ{S8IF?G$`ywiMB1hT?IAAK$c{DJi*Bt;7E+wVJ*
zWpV#QZa?mZ?McE@Z?pt-agK$438kRy^b`a%zi(*@qd=|gDT5l6o=_-kO7qN)dSi_`
zlEL@J*1uSv2}rE?PeQCeGauCVI~e_&dD}jE{xza!cXaRH%-i<S3$GD96y7_y_iyHH
z`{+d)y@>#CrI9syb=P?4pn#lF5>VC#6!nW#QYC)Hm;=}p4OKVfWI|WvqiggNS);!K
zUU8q7Ifmm~hWq0j?x8Y26v9dt)4u>0z2cmU$uns~_h2Q3Mx91Q(XR@8O>PLDG7+DH
z@jp<-9vA$cM4GH~&m|;83ZgAKgU<EkU3X{xoc})mh(Bcw0#p_D+Iyh_WR|<{`yYhw
zg&zs0p;i*wokX$4g|8=FZ&~LSFP6AYuOD33=TCe6u*=8qw?F8**Y!yF)$91#sd)Y$
zKkGb_TCEWm730kKvx%pRfBE<7>3G;Z9oz@oNut#R*OP`{mKmt(316cy#UkRHOc_Lg
zyr~;%Zn~Q3NZ^W^)iq4~?thJYwC({B5i%~Et~{=#mG6-|arHp?lNn8!Nvo&vC*YN4
zdwmwVbsxhpPm%Ob6#f_5w;n(&f1`7ubDiyC-d>L&sD?kaKm9QZ+=dUaQdRyTgIaby
z3&xlOm7sLPTrk&tKtJKb1<97y{Xm1GP;`T8Y+Pax6aG;;&a^(uF(~?0ITBkC-N60_
D0?>z(

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_493519.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_493519.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fd019cfc55abb4856319311ddcf5abaa708c6a58
GIT binary patch
literal 4522
zcmb_fZ)_9U5r1#Jws-BdO%e<j2M#CUsC+F62^<NO3l~TZ%7wHL4nf3eWxSijj{k(+
z4RO-7<lG?<i%Q-|C&f`!kxG@y6{Hpk6+ZSuD<Snud`?UBN+l%tl5gn+>7@J8&RfUE
zaRUcBUb1gz-k+IyZ)Sfp{=3WNK+y2jKa4yD>M3PP&9+Xg{TYZkBq0e$(O~h72eHXB
zG0Px}k&GjzoYL0fTViB3B5WL^+z=yKuCce*CkE{jE2GGk|6eCrUovi!`5~KRzs3$a
z%2sjL(4dn+va>8#n8X2og^KMb_G5iNKmLi>AF@}du>x&@XD!Ll18TT57XiMyN%;2q
ze9EpP-L6}vVE>d0p%l{b1|I9o2A-*q%vQ@qaIL!S_PWLtr*k?x3S5e>*i~{x#b&U9
zn*v_vCFYLhHa!Ql2w!|x_F9?Q%t_@_Ilf09e#`ot75X*_65XLY=nYHw4qLh%ot<*R
z%?OgUVz0Y=yfUE+x|QBd>1^gMm+sVERAR;6&Gb57rnk6zLvLC*1)-mES4iC?lp!LD
z-g4{w9b3s;7)_#py<efuA1+xRU<exvs-wi3&_-k>fC(E+hSl}?)uREd(7+AwgwdkJ
zF{UJjm0(N^OT-pbg7IOQu+c<Ng4qPI4*{v|ZzmRYJVsdcilPy#swEUT;34<|VR|mY
zbAbq|ri3L~Oo~ckg5Z8)k;hbp#uTy85jK>Fs-{|klZ25biREfgA*`Zmph!xp9$4z%
z*uMKk>qJ5sRmXxMxpgEM8VzbAiTK{&upHM~RVCD_$+59k;98^YVmzV5#LE*>%h;p{
zLn4@?CE{Wz0Y)7-wEu&)Loh??#EPZjsI0{0sIm)G)2~|H0pDjDJ>QC)uI%2--W)DC
zeCgxMtaYYtM$hvNdA1?lz0BHXnhhcE*pX*<q>ojx&tU7J%pv1U&R%f((>=>hkI|Uv
zO!qwF99etDZeXKlmdk0k_Aha*kGS?c*M6`4{^7fa3tU&a`!Vm#ZqIBtY7J?&eqrma
zfhE4}5q}`hAGmk+{@~rg0{>C^*fWQa-ILj4)EH-Gy}2_>j$I3lc}FuC>U4iuJGXsy
zd#*00&es=en)A-)bk7ssIU{B2zq~v*G&__#yU;j){#N7Cwx8U(lHa!PPd#~W=Ys=z
z@6o^P&U-(8Sd;gj%JZi{3v0W6a{A=VSz~wRVvbqZ`cHPx8e9@m>S^br-8Se#>$m|V
zLKMPHJbVrTIfrx<F^4yHDGQ8O?pmJ)6x(#YgsH~T7fiA8CA;xv+NyR_9W?l>+6!!!
zn9&Y6+7?(>iS+C1OR2%M;`QX<SIWU!8E-ekR=tcsDR%SQxkQoPnzBjsRw0*Ex01zE
zbe&zJpPAWoyH-=8Bef;!#TzopdbTRxJg3`qZnOt($D?^mD<xLvevKsSZ!D$tpJR<H
z%|>X5RJ90oXH^5+->Dh`HbSGUs+F{SfH2Z_mL_%UkQpVA)38o&YBS%IPXy-xG`+p<
zUrY-U_$!?gBc0tW!u0Y92T(I=Ln@wNFuDkKVDu|r(sB_^V8G&)|3X`#cNd1T2u<xh
zHxgF;(RM#YD8H1DRiHG#IzBd*P&EIL9Mr}Y*)N4-{;m)G1h<%A4(MuCM}lKAu`6<s
zuoWSeI6{fI79Ji?jH|>7NE{j=4gf-JQjCU2Wg^H?IR*$Rs^KY_SYqKgu@%9Pc;a$W
z6UP!0vLYsi#C9T_9S2b{xmQsV0LGzlDM)ORd^H@Bi8UOT<fI9X0lw;^Cyu0O8YM#N
zpiUt8v_eCIxKDRq5I_EOptnaH_}O5unE_N9;$>)8-lgk=N+4Da!q9Gb)J_wDmupNI
zOP^Zi_$;5{jV2>FH#|F>yF5Eu;F<t~0VjPKpK&b5+~nrDh1z+cz`qAzZ0D{gr;`Tr
zg>GE=+WyY6;L7%8`fl{k;AK01eR6uzsQn_9!(ZF$mtCIhXPM7#h%?MH-u;NL&-3-U
z#sW_v-6>={G9A-B>F)HEWv?$6ycwU57v62jdt1`|kKHv!%kTC)YU<24bv~#mH2t*T
zK9W8Gs%JVr|K(%1Z*k|ThaC?Civ#Bt8$K<#&o6T4AM<W%?<3xq=Y6@ho1OEWH@oJ$
z{=vWhm}|(L$@S#9MzD2RaGU?G?8(eY<IIgu%rVchQ1{%!@s4jT$noRVtw?ZZ4`&V=
zk%F^vk!}3e3!{tt``@Xw7WwPG_j+3_e`~S!cGyF}mm4hrO=xDIpM%&;RhBWdeyC~^
zmY~Y6DE&4mJfW~!A5Gzk^5ut1W3)2(!UxTiK21m+0CSS{2-x~P`k=ahi`KuHv{zft
zy@vJ7TfO@?llE%s`PZ=C@m8&WGik53-bt<3(Ethv{VOzdS7@qI_CXh5ls0$~tE5c=
z>^e1B)x=OxmBqFd8qh1WD6brDuVnTs%~jI}0<01+1wu_N#TA;HO`r>~CZ>-^HMIg(
zDT=DpA_|m6jND?HP*Jcd$6>yYE^IMz@`-y(`owbq0lGLdPNUnnvas#W_#abWrIxr4
z)7^k;*@jF5)S`G{&pqpX*Im~V-vy-|?=^zCS`+J@?A(<;F>^Z4`YPop<@K~GeIbWg
zIC#%{f9KtuOZ?H-k@L3f`5|&vIV9Aj`xQUjTfk+yMA-{8@f5RSOB8<cjKhx#!j&k6
z1_iN1!W!Wr*{YhH98=6pNNnfixC*(_YW^-V{b_oII3Z1gOU2<tRQd{;+KOJ}j>Hnu
zcvS9EsOM;1phlrvwP1{&BH>@i^>4Ie)rJ`Ex^LRI%GBc@t-6tWOZHOc(l;L9)+~q-
zisPO2xXI|9>znOcML;gdzmNVlYLXAUYjk9-2dWX*H^M<&_n#z2o?QjEf7)qU^FRNw
Bb~^w7

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_570539.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_570539.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..245d048fe1e8ae3444bd757a1fdb96720f977c9f
GIT binary patch
literal 4424
zcmb_fT}&I<6~1>o9?y7egCQ&>Kp?-=ssagV5^a<pk)KVX653>=HbKdb9M1p-;~{s(
z39w_yWFv)Xr1kKGQB^Jb)NDa&B1OtRwoiTN3zku1O;ah-@<N~3rG4p3d+zvWX9*#R
zHdpqYbI-Z=oO92;^PMw)3kLlN+NsPRhcZBYLkE@SD--Kq12KzaB;y3?FFkQTcE-%8
zr=P`0!NZQ8%F@zPW)yZf@IxLQ4KT9jKD$sB^!sE%W)(DC`|3>D`x-u{2m_q#yYKDy
zSN-DeqkfS=idfYgn7|SLDplKO`%d@%^2{%!z8LQ^;|1CS|Mkxqx<wsVWWzAt*krs=
zmZy1xH#{RZ5F&WOy^7tq20_pa-$GeiS}+8I9f48WZy?a&odgdiVUZ!wJ}nv;xa<aQ
zz+g7v23_8Aui7<4!!I+7o&~x;Xv0G3>F)LFV6)?^?l$xWOM&-hsm5h#lZ#`7j1Y}Y
z#WRSM2vMtb?ITp(Qk57ESIH`2)EXR(ctuk>{07T4KeQ~f6%Et_>XQ+seY(!5DN#mU
zX~iVG80mVK_PVMQRl*1w^@e}ZTRAI?CQyXyBlOw~R%S&Qn;ng6Beqx7hZIugubqlu
z0)|n<Z!>zr_Ky*DkVHqNxNLJ#5={;&Hk(kRGDub1Hvpu5sN42vsZpv<AF{nfyG?Z4
ztLZ9HBHL_y&1TMChyOJjU$SwZ9nf?VmlbJTBI;e+ql{^U-YMHV7MG<_n^Ok{G%4vg
zVRPfsm`*g?Cr?y}G6#>_j67j`?nH^r5>1zFR#(U<FvqoRpsszB_TOK1-BrnmHWrO3
zT|?2>2>7ce_eTenq~4{GSeLGhj&;GPE72__RWd5wx+`~%O-R6!z-e7gN--5&KYaAS
z;X@yS#IBcIQ>77wB$Wi&1NJG}X>IU=XV6L@l)YqL%Iz!!S~BN~zJP`AO&0mkO0Xt-
z-Mnty&UF-myD}dY#jw?59?P69218aut|cGdn-A`N#N~sXAPm)7hjRyKJ~WfLJNeMw
z%=uS2E4)AJGkq49yZWepncx4MKal4SJgs}S{mJ$Me>~IkLJ+f!W~0@Z(;ppL7P_7b
z-Fcz=Y4@{ZPmUFYlbO>i{y=u0xz7q)muDIt?$7Pa`<pXoUWmc$QS)f_gn1%YpVQ`=
z3gYg}*%ja(F^^cgtlKmD9-hp7Jb&iV?k_LqTRZb&*W*2T@d)fh5T|9c$-0{BnYor1
zTEPO#J-9G+Vfr`Lt(^XMcF#J*36WOX?Vw#Fbg?qV0ErMy1P-SD7Ow9sGSF}pRUNt0
zRUlf%BWFQL8_aU+C{L6b;BSVhOcTtgqAD`*TiL*`v4P*h27Zkv9_mTj^BO7ZNLjs-
zO3|=8`;>QSe2+q2&;xj~u~nj_)q*^@Q3{bLv(hvYTd&7kuE%;!Mf+yy*kG%8$r-G{
zIcHa=*H_laUW5G|k~xEe-uHWNW%fO+H&o^ro&ijw0{IUcUc&==&@jD38=CB?tcL8z
zE%FQH$YEr7H#^78PoSdXV-ykkRw<sY{tuditgG~1PBwg`MD-L=+U5ADlGNgAvc0eU
zr;|G(?aFveQDm+CRzi)9v}^H6rM+B3fSieR0`Ss18wuDRSZn);q76mI6hP9_1MoC9
zWcvZ4^a&{uA5rXJTmw8x>hZypn$m2)i{?sjW!EH?aa|fy?<z!62c&M>|LbTXrJN%~
zB@Ry6TnUaNz6~!Sp(sjdoXIZQQQtIr@yftTb^~n(-1tWh1FMbBYjJ?D=;I%xrc$5X
zwZiv4Ee3+wi{?dm?RS3BG1oD_Ywl--z`ki*^a&5{Ox^ix+}e51C;}w*oBcT^clwJ9
za~I~X%=H$6k!j{7FF44CO@F4R=pMWfLeGV!ywC*jDzs!yzZ3)6Q|75<v4tA!HG3cS
zfekVETx`yZ&C6mdHF49t`B0i>RzlmJhxX({d*&|}LLGppK7RV>y-#0+ezMej;Bok|
zXX()8r7PE$F843>-&kt8SqOcy#DB8FHs-=PHqW+#BSqft{D7dpEN}8w_@P+j#bRya
zf5L*7Tl)Y3{vR`sS<%_SnZbg%V~O2C_Cl0m@UJ#na?ud4GtkeXI7+(<L3-0RG#SfK
z_qs}zO@M8YT_|(Y*i|z8cx}x05CpFsQ-w|synsmd9tU6FU=OP8_vrn*Y1`U+{w=&`
z-fQgNP21Mq3vb~)6!Pye_V1=`Ywtzsy@3E;1AVLX>aJ3lw%J%pjzYo8$;zF03?Na~
zCjc2mUD0$Y7S$B#AnBm9={KL7-R&M6B9RT^pGR1-pYps=*~&>mzY!b|i?9y<rV_g5
zf<=mh8uf}oU<v<f9T!|RAUOl_UOKVU!N8ZH+RXWX2apiTil%7wShwdtSWNvX{Z)FI
zKauHK0e-XDY+cUb`F&5l&w@{a%T6ICG+5DGT?x`!+cM{;FXh?oZat(rpFio=!^|If
z+VHIPN$aw33d*fF>Um%O{1`oJJPOoj`W#e@;KA^}_D{{t-aZitI;TSpLOAW3Qby}c
zz&A(=N_LyCP=sbB+cO;3Z2?lCrYqxPmE?96a<EEluk)ee9IbOewg}l3PFEUK6Y^Kc
zF<d%O{`jaWrxMCZLJyIqbS)0ung?V24GR1N1^<a!);PrQ54KNjUt_l6y??&)*BgJi
z@f`wk-Gi8b!~C{$2X3>@&Gydpt|1`jl|LlDOgQA%4eOM%-iHwmeit}`>%SexsHUwD
KYM&AvSN;zx!fmVo

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_597752.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_597752.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..89da40d0f7260116caedebeb06ea65b0073199fe
GIT binary patch
literal 4266
zcmb_fUrZax8J}6N*SlWZU>w3hLPJE3$kzfn=W>)&LIfcpx+7e<rs)OcwDNfuFc_Q6
zE(vgJX%j^{TY11-E8%<N)Q2NYq-&&9$zvZ|^`WthinUE8r0~K+C30M)sxR#~>p$Ia
zE+jfe+S%`$Z|0ldd^7u-Z~yG|x)GGV^l!(5AU&r_xwuNg_7f16kc?y;LnFmE9>JE*
zOgTnaj1)X!`6&-AzGX&XCp<5=QEilw9e3FKCBukI7GzdI6Sd#(DLem9JEsVvob0;e
z9C250@psUO$RI_mc=pWUpnH?L9Wq^ggCCyzKpKkJfjYtDfM@#)hAvUVv@b0apzka)
zzF)E@-MU+MOkP8X;5qv!cIOxbLDPl%C2vVl7j<?Lw4_Hz;Deh71oJRR7ipdJ+7NKx
z_oaJvkIX!9+^3kKObErdz1Av9wJoWvz^7xF-?d}@nmy*P*|+&?Z8KFlBDzoaQEW1P
zz?P$@v-2Xv$ZuPrud>*RFyXI=6+!pwP8#3J>g)7cy^i|d14V5W6m`XsrP{(oJr#S-
z!|6%}bOvI}?}+UI+gx=OXca*}pa*o%17~?}F`7d`ZivvMGgj^uWK4D{tWKKFgf^~_
zAU4_XY*Y<m0tishZ8BQSbWfAS7zs~FQQ73eBpe@8Og5GX%V15Iu2B%RlOfZg&P-8n
z+PLW?>UE--PE|_~C0K9bk4>ikDm)*X_>zf-OouY9njTdnQCX2@C6c&ldP|x-_p)kP
z2|b{ugZ5)1iI{4^Gr3u5S|h57XH6Fjvt&k|GaWa=#AJ!80YaJDiv84jaMDt({QGB}
zHxp!1oeoEo&hc<$5*Cq&w};1+xYntXNT;SuO?QIU84F4A1euaPy(xE0&q>fE!6LLo
zT#6)MDW|%-x=w|_Vg@8zS7}lqaV19D003n{^*DU^2KtUiqIaP^-JZpHcaw3h;Bu$J
zw`U8yZv)!9)7_cjtSc|J82tsYCUZ3XQ=@;~>&pZ(dd}aP^R_O_IqzG>g=f5b!IgGp
zxa{SXz$)Lq#-GUXCmz*3ZhF|1=T95G>%Q8|$!v2j(3bPHtsKbt+Kqu{g1FF-Zpbub
zwUv{rLg$(g$_b%Ip~vq%d@nEb7=0UV&q7<eE#uD&FV<&=SKUXJkLKL1#<^#Jtt;KN
za3*~w8_23(Hs-}v049hjIo<f{kCv`1Udi??`@g)f;$N-*@rw34`QB$wF6TOX|InN3
zJfEw-@JD~H{{5WrzR_0|7|VTr@z%xEFEgKJwZF2*wjo}K{D@X9v}%AVQsOHR5%R)g
zac&13?Ion639I?#D(QfB`>2u`*wi88M$pQvkVHCu#h$qOT-PWcvq>jd=~uL)lrIyt
z7VPCK(blJIw{Yw}9`8CHYZW%H#@zb<*o)I>46QOzg#mSEh38zlQ+G}F!#0Rog%@R}
zY`=}QK-rVdj#_brdkO2D&ca9rR!qOa9YuDO$3x_Iw{v^gUBK?8`xqmgtG17NWwxKA
zpmS*RKTziVLoLc|L{Vh5rF5-ZJPABV&rDDRDjN?^1MS_2DnM0H6+ZX479E>O%&4Z@
zCOd)gBIBkT_(GeLV$n&(<cb7g*2I-rO`1;JREU%ql|rWbN;o#7oF^nfEM_pdA_WHd
z9mk!#1t18G3^_=vR$5VDDi2ke(8!yhm>xUtkawWzDDC(Us0>u_cozoJ1IGCRFD!6r
zE=4k@vUQ8ydA`}`EtD9cF7u0QXz^-ZIAZh_L=XMeZ}l6!#`Sej&Zf_<iifG6!SvwW
zp%gBN-Zk-1PCT?KHW$1#3!kJvxhtiZ4Z*i2H0FfH?9se%7}&&jV9j?d=R3AMocA3!
z2G(7Cs_XV=&wOt@ZTv~z*Z!1m-(VZE{w$kgn*m)a1lZorgtGw(l~3~-|6MWj(bCn$
ztJ&+ny0#qpy8El{mEqr<F4Q*s)5SWuEf4beDAvrWyFE|YMsgfh9D%1&X#PWkw#`7j
zgrX>Ezpd%DxTDBehQ!jA9aPE2;JlSulh}42|8Q@NR^bNtewYe7Idot$*?AhU?lB*v
zv-^nt^}Owlo__`O%)Z9{^}OwlUU&uc?tMl7dfs+NFH-b60`Bt+ZPKH=NjU_vsu?*9
z*&rt?H=+^6bjsQs@SUhBswPFksv^C;Ne}fV{i(7yhwRG9P5MJ)Z+R!kk`CJDguGFX
z6ME5DtQ2HT7g5xin5Np;t`*EGMMX)iNNBYd1Y0si`oVsYcI>dSC`clVf$uy>@GXdG
zG1Hs5zI^b(%s0t<$yNT0(F;tpa43BUQYpOL_Q?6z`_Q{;<u^h-&`X`gPV3D_jDggp
z9NT2~Ln{6G9=jiA`Q1nLkDDJhuL@^@+4l6aUwD3qpDiAF0>+TVia|W~V*GjP_y5}H
z33{#FAtxZ5W=-*;>WD#xKLfe1$(JQ!oe{@GR5Jy*>{Lyeoi5*5mzB7hAg0s$4Y0P>
z+8|Rb?yfYJh{^YmHF0r6`O{Mgc_yaxkV`NtJuoWG*tQ%P<LAipH{|_0I=saphX1_j
zR?`-95WiXYaQH9!pY(4XAa6Sm<FQ&_gx<hSne$77i-TJT#AW5{*jF)2d{VznTekZ!
Y!rpH^@8ZCVS&V9q<b5r-L<`G*0o8m}0{{R3

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_637799.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_637799.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2045d03f1f8f75950c7f62bf57f294e642775266
GIT binary patch
literal 4394
zcmdTHU2GJ`d3JB_ZvSr2{|1AL354{Dz`{7Ti6|Aeu|pc%q9RHxr>o2D`uBWm&#vL@
z?n!Hegjad+@x<k!iX%lzQ;-T05=DwcBUOs3R;{mR6>I8BmconQ+&F#dOZ&~<`Pfi{
zal=bTH#6Ti-|Y8&GxPo3A0iPEK?~qt4bKAfB}FzHUjjD%1i($CA&p6*{^HE^Gak;4
z2l_b%>CC9dXY<qItg$*bDt~j0VuP#}xW?To5&FX#r=!t||K6tspRpd&1ueWaZIIXa
zYh1rr)>gQN`Xv_WQdyon&BVktDz1-&JKz3M*ALacgkSv-kOI&*{sQAoWHEFvZKG^)
z_KzBKt3=O;wrB^&1`xu`G_nz3p_w2;Gq61)*$m*}GA`RJ;Cva6_@r=t{zX`0Y~fZ(
zdPcDon;Qcx6ZL&XwSKDElC4nbc2r|;2X4_bK^ql{vwyV8$W{+oK4HZ+^5mB+uhOot
zE9f0%s(g~SFe$srj{fiGq7pRbHn(}h+sOJBlKfI;Bsf>KPnJ@Cgfd`P+d=w*<rk>2
zEA1NZMrwUuZgnGYcXZ$X-@R;}nQBk(sCeFz9n{&icHInkYo^|J{w;!s9Vyvjy&b(B
z+_ZfLO`}+-4^vkf+Pvi$OStj4IYxqpHLT+pL%4W)#EdZ*G(a(duvU_Y6WAES@o{xT
zBcV8sr-pRGC5^ZSRD*;E0kn>{kbpTgPJ-B+#1;vfmVx!yF2Y<QZ1+3RFA?S(Vfsiw
zpD>ART6jd$)wGI@D<o3FwCQi69u-s9C4mW$9Zahe7A7IsSDcGDmoSp1r!QgBgw>`A
zmsZV561W`4gu|u<Us^gIKUSPtU`yKE1zek+(f;-0<|_ssGbiE+y?HpE7>irOM(Rj>
zNKaYKCQdY4`uIdMV9m)EHD%y&^}Q?F(TQmlmQ*;HWu(-E0mo}Q-rj!V1W-t|>f5T0
z={Th)@pnOoFm%&}FzTSM8;}&4KjI$AF$J-~=~@npbMdR`WnNj8BiTSUnXh;yFTdiP
zS&l@r2Xc{o)vNi)t4_~T=wo1V!ab2ap9>eHCZ~H@ie~q_9ZvUSUYrlR;cPI+-H;br
ze`zl9#~<-+dA{u)zCUw!roeYPr&k1NzTU0R*5wY~Xk55(r+P_v{gKd-7dk$xdf4!w
zp&)cSovV^OH|f6abgzi={2}*HwkF4Y82%vqG5d-5kyzMuIA3}A&i*B_6&PQ>d-*ro
z!=VR5zkBbC(a%Q<r_L{4dS|J<KQHz>T`Qn#hue|u${o0Iwjh1S>0XtUY>j)?IkO@w
z^F3})wk5~hXv=kf*!w~6$DN<N_0d~}z0LXR<~#8vx#P3WhdmE^e%ty*`{(U{Z29vW
zzkj39b#d|CpDmqK7ZZbvBguRsnLjz6ms5+AQ+au6F+H7^r=2saf|9Lu8=cO_T<H3n
zvv1B_%xdntxz2?Pf91Zn0WX5^J~}kfp$-NT!n!quQ;AX@fhB|@&?&yr3D0*Evfe0N
zeX429Zdl0#o<U_jDrc4Xj&6|wZLS;xgEnUe$GSl+$)cv?H7&47zsgwU47XJ_v!6uM
zkVW<PnjIMQw1m9P*daRrGFZ?zx=DXBKgswuvkg784Lt}sr&M_`$PWDk#e&7ywDxak
zGkbdUINZ42q>YU0DRaa~HCcwyl#Jsc9ikJxuNV(uW;i~flTgv=NHnFVEp@`UqGQz<
zR9lF6F`k^#&tPm|aDD?PhKUHiYfY=k5pY84fFx9mKC$pqZ;oq#ifidWrQt&`nDov|
zQ3JmQFp>R^jay;qDBbr97#y@NBBAJWj4L{)mwCZ+K-QJO(Uh7;%E7#HaN&GGdClov
z4)b&ESAV{u>{{I2R#4g(`S!<x@<`a77k20N7lggkTI+L_IWEsN0;gqO^nL)qPolhe
zm(Nzd51=?NxI%XS`?4RbsQ+iJ6b!95AX#zF;uvU{fL?Cp(vOAX-b5oPvu*jOK{e|u
zpSCbvc;wP*hVdn>EsMz=abusDKNu~$S-yayfvai3lW?qU<b|~GOVoa6+@7yJ{{q^x
zJG!my?tW+7p0B;|0@{l&Rr{TBd%pG()!s%Bj^w^IYPxImzaZffQ(7E~rI4my9!cmV
zs9DnxcqB_VEj1B0b@kX9HR?55j`^2c{K)Y&`hUs4(i-FNF}fCnvPw%~8k4;!65~i1
z>*iF_GJSE$i$PQ?8iR@fsKQghS6$$4p#K!QdDJT_R+S2;_iGsm%Dm)C+0)s{g}U2Q
zzs`J`S>nI%oQ5DXzsKDJ<pQ&C=w9%C<Zfh1I0eB*sLjT6RbJp(ZQSSd&YjD14Sqhj
zyq`bi=ff_v-K)Ldc(-v$_`!?td0F~=8$RnilB=CQFDk|&-jiS&$Vs%AT8<{6>YaiL
zkno!j_6#F1I${waVWdn;Pfy@dO1S_ji>4f}H1^)pdle!TpHv+(lG>-plU961{^Yo!
zO(peH_#8;3R$@9ZtOpo|`4Y*0Ly^Cuz3U;w^4A+?8`jwa%;EJKq*TlgxC39+0=5xA
ztXy1wn`vN_<*<C+p0(El0I%|qdD)fMg8%~$F}fb65RXFA^?})e4FRx?9tJUyujDqS
R`X6ZqMfVkyrdi3;@IOSNUE2Tv

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_640557.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_640557.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e8326416725a85a62467de6b7a106c04078b4f16
GIT binary patch
literal 4409
zcmb_f-ER|D7Qc5qwr4#4$OqYwK#B=1$l4_-AqC0;y9uGNEu>56N;GOUGM-6d$M%Go
zF(lcs<g`e5#DgbKF;7jkE0r!t6%s4hzhPf+9WB<~tb_zFc?(TfTJ6j3x#M_Z-0-F5
z%J<GW=iYnHxnI9?{P#e>hoJmz@-Gu<pq@~sR=n%P+5;dKkc1?hM5EO&9>q4#q+Fvc
zMlw#=dTLXvUx|^~g#URN<;EDvb&b8f-ZAQxc!`x!qUon2CHD*D9+@BWNZxDiQJ>=%
zcMXjS43Y&$vwsFhd@EG#F!2ta{rKcZ;&80CEGl+GbwORT7`j9qQz0!0;2VpCZ?E@f
zy#_M8hHDn)&jt|6B7=F3XAJxtkLxtEjd~Gmtl_!6ZZXRloWV{4m*wkbd44(zeBfq5
zZ156u$90>o14@Fge(PJ^VKzG^XH~ve*uz_FPpGrE$u%*2hL7&BgzvD<?)dB05_Fd3
z5Q%1obO^(5xamGQ>kPcYuCR&SpdlCm>WvXJ0*O{fxkE_qntpqf?fEP`ifpLP+BRpn
zL%_|co?^)0?|5pbh|vs+c!yPbDaLDKBMf0vQEigA6@5ZhBbcz!>A1E+Pd<WGdYK~v
zVe};NO{vPb8cm6DiFl%FG(9d8HmO7<=v9b!3`qT8A8~1!6jiBD5VxvbR(0Z<QmzuW
zrYou(X(IR{VTL}1dXe}wU5!h!I4!C$0uK|HJf*4BGI3D}8&i^+?E=Bmgpp>5>q=B5
ztg7h};lPe4&4{#PTBGkg+))1e``)XHI;l-XV{-3AG&Tu7De3*uaXGE`YHF-kms3-{
z!1X5k#I&NO#7kGDo~aoTL?U>mD`_#NfPaVj-+k}B!_Y%o#k!&5q^zdpq`C)e)2F0u
zgQuKBKW;-pps?TEU&Li!XYOQ$b?002Mv321Vt3>QDy%2J$MTnaJ4@`&++YK{3{&4X
z-?z>ey=5Vs8>$E)YqxnMH?++83SQG|VQXlfE9$onE^)n&xV{qCcdzgM(Yr^>+=<-4
zGA|U`&33EBlIA-Wx81t1#2<LX_m}wodn5Np?~a!F-{uCFeg48;bFbBGou6+jo?r6q
z%AKTU51WSz$Iau#)}nT^qb%$Jo1x~y74wR9sd!+1Z1KQS=$+h|3NPd(v%|W$$bQ3p
z&E0DLlTd2=<*jI`t+&MYf_Bz({mk5%{D}3o`Du|^-1ZN4?;30lQg_m(i#8q5#MYq&
zNQ5Z7P<|~3cXI(5C_$wSCF=rt{jBwV0J=@bOPJbm9yv1b3ufcZtToK0Ht1VuC>!uC
zF_VX3X-zP$J{YWzuSE|4b^Mxo@Jsbz-GSuI;MdpyCiZ2!lXbtK*G2a(>yhYe2u6*i
zww_rUQoMSo)^B)q2P_jUHR;CJZ~)CY7tU}S+~g4KouIeXMs5J#7ZAqAFodo4TA#sF
z-yl$7gL=2wskmye3AzCa0Rq?01S5mp>=qc#j0+SZSN;cOg$8CDEaM1aG~55lL|h9e
zqcgG^rf3nC6j@8})5BV3YD!V{@R%IcGpZbx;;Hb7<KaX79}V^ZgwiV;@dE%(M5kop
zRplz-se&Kz#gw!jAI~Tmjkp0LV-v&&xTMdB$@rv9{BlxG0bq$*d{!o|R6I>QRcs=m
zv^=eg0IsqsDq~_F@sDIcRZ2dks)}mEQpDHr?1*n#wC#(4<-6$uw?jklITAcKa8dl=
z4;M}ii5Gr1da4S;>^K0lM$@njY*oAI41YZms&MtuTTr#_HUw6hTNc{q+jAdQIKIG}
zywz<*7sltui<jmn%Um~rAOKaT*=Y?HnXkB;++xd3f0=&=(9p|WpPrkxm@f_M^7r2D
z6@Q>`);xP-IFBn{{`$<^jMegGwury?c2okP!sq7aH^e-%%m*Lw9VNb_xVy|#Oa-eH
zD;ZM&Q|k;ieZaJJ7NcLKZ>Gy{^_1Fra>L8PW~=AVdmnWlDRm!t&|L2Rbvbw}cN+Z2
zAO7Nx%fZfvJI<GbBM-R|a3$Xln8>yl*%I3YYAc-2{_zFQ<gDf!f-Ms&P3`{<ac<9Q
z3-SjGN6n*FqAcuw$nI9(h8>DQbqb9dHtsRdE}%FheRYAI#_5J4VF~iwx^!ie#19gi
zb!oOfMf~~N7~MfOczcZVf?Wn6v*bPozP`eH$ga20`#00}a__m<@SfSyy?--pFZZ5*
z4exzh>iwH(d%5=l_1-{$y#C=8dUaPgXdwH`NKr^nJ(7GS9+Qb%(q{lb1zpy3F&5Qi
z@xThb)GIXis~7jxGY8du4c+|_R{a%~xgm#@(kjjPZ2*g~HacgLx>kpp6eKn36-B@*
z_BGiq)MbL|2hdNe)??$}<6u+n^pAeT2MdBJSOeDO#b4aXe3$(;yTl#O4Lk+;4s!=2
zd3bT}J@@^<-M|umA~*PyZ?mGs78}DJckRlZ&Yvr>o%MQDXFN^!HuNxyhwioA@4DNy
z#Q)}X^lX(sKS$3hhy1O%VH*`Ac>LMKll))*^Yla{V4sfqE^H?WRYP4*68>#uAaN&L
zjZ$g;LtKftPI!o*nl4XIRbw9Ud?KecMI~<gFNuA$_5l$AVlSMoIIbk6Z;@@ddZ65~
zlp<x4@(J~0&<aP0G@28xx-iC1kpG`3@GrFUG4@{Xoa<a=+VH;BAPP1WJ~Kc2Aq3o-
z3o(9M{;a11cUz|x&d#4*ML;gf-z2|I+T??_H7Z#f!UzX`@E^jh&!#a7?J5VubAs*5
F{{h0YWoQ5Z

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_712104.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_712104.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7777e179f9edd10fa8bfe2399ed59de56ba925db
GIT binary patch
literal 4253
zcmb_fUrZax8J}6N*SlWZU>w3hLPJW9$kzgile?5t{s=-sbR}H5rs)OcWcj=c7>rG3
zm+<G-(k6;}Sb4B%E8%<N)Q2NYq&8C2++!bG^`WthiZx9oq{|BrmFRJO=}Y^~`cF61
zg+#|lJN{<AnQwmc%{RaK{3oy1jiAi_?APPp1?el+s1%_rZ2t~~Wuzbl$I(dX7mr}8
z%}qH*c#Kp$VcDrnE&VE-%1?M+?qjV{PI27hAC?s(E`?XoME(DcQ=I>&Ur?n{L2=#V
zN8D9Z;ypAXb4Zn|c0KbrC~Y#cL)6tb`2NKohKHhdm`+eR;M@K=$2O>AHkOqMXzwfv
zepuG0+=kn5Ox{F@;CcHje&-wnE;FQuWos$fkPUtkS}Bi#z=p5@2o_+HA+tK=wIQfD
z-)7SA8Xkpv<ao$1Lz$3DzxG<MHfkM6bq78J!}_ir>(}kEe%-#UUvFEfMt~ST!^f~G
z_z_?6p2083;3L0nhra4&tHOl8Dpm!<Z#bEMtGjP7>Wv0we-9M(HBdB^W|nIU6SGtr
zxd73X3K$&tR@~v+1Gcpqs?e%}ali-|o=48g*<v)0g2E7Cp)*z)733&C711WCGpUcO
zB#0>=nTu&bOaK82x+$l}se76v$4F!<98;(eA(6zGO8Iy)qJTC@U85lCr$W@B%}g<C
z`Z#qG?H19gQ`3_~4K`BzA?5mS!1p1=S1BH%4s}|i9!)1PMGen|NphBY%PnR8<))=2
zEI_G)jpL)qxMsnl!d!S-CmO|b)CJQlnN#Me<938lo@hECRG6+bPHO}sZMDk3e$+ji
zB$L{7B&v3gN1~IkiDaTPGNvZ<ZjD5{b#-dG8(Q7*P&kn!Q{j(im9FXeFm#1s6M8Zc
zjwWF%XHJGro;VE}8VK8lh9^~$P~)Tn0Jz}Oj>E+_(KjNJy_wE*XAT$KE#}3d%e@%6
zJ69BaFQC6C-IE>8xe9Wd*<Y0FvPaWDF#9*WzHA_C<o)e=Z~Kap_r7IbelEH*uCyyF
z<gTp-*2K<r@kCxc@ucBt%j1@Uc-HLQ@YQEe<y!NBj=Zm9^+4X&X%0M><V;h#Dch9O
zS5K`;-Rn{)FNL0jp1%9|-GX%9?0ez%WIECvS$}qTsWCUa=037=H1BRVFFprsXVPaf
z=hEkLft>bPb3twgV3NG3q?>>F!SeN`>$$!a|7Vw1{cDZiTh)K7Jox0xYx(Zp-}mOb
zFXbCA|G}Scd@nD(XZF<u#tWZbxpQUlr`eBl`d|2C+u$!mzQd|ERy9EtE%OzK2zlYN
zIJXNzdl?yM!s>pxN;#n4KC7$-Hgzbt8Cn%qNFf8i;z(S3t(%OG`IHm1>=x}PmB&P@
z2R#dh9i^hTaO^%G?>ZmrRW`51+{S;|OVF7Qtuj%A0S#xB=Uj%<a835ZG01wA7Zt9e
zzl-%i#gf5~T7HFh2^)gJ!%Pl#%<kZhqBtt^!SlQ8g+25xVE6KSjFBPKI!B|r+K*At
zIkfq2C=33fHgztls*2WDe%39X1Ri8D6O@6<#v{`}d$(gMP*qHW>z>eKV>8Jajk;~J
z6BsW#PTjy4`g}MZn^dV#A_!WSQ0MgUbaGZD;pAvIMBUdT@fr0JAxUB}0~JaX7!-Ge
zJ9!I05at<jkX7xhV!$*JstTczH=#j2cHSYUq3b9c_;;vGRP=Z=1L*<tQc;vLLRwfP
z*|&2IOFad#)$A>n8KEKjlU!)&MnO7a_7!ChyX$xQ&0h1?1~e|DFRaOjnVrG(;QgUR
zT$H`*@}azZXiaV{dh0SDr9ZkKUgTa#zICZNFE!_m7No<#CcXpfzGHdcv6bP1@3=Xz
z;Sv|m-2LRa?~P~8-!J$&pNX9>_@<mc$LIN0K(`nIY$vmkT!29p(_+?tU(SB8d}HZG
z?$$4Eu7tkm`MhU!_*Z9(^-ceD@lIjOgFHTlHT(Ac^UwHZavXLXg|Avz{==NM%|X44
zVkl*Qt=Y4<qbOK`w9=Lx)X2sl-paixY<rKty){m+as%8SuF6gh1DH&4o&~IXtOx1r
zKB9j;YrCTtUjaS0ufBghYrCVDUID#(U(vswwcXLn484JX`#eLNEOa*+hd@>}qeLJZ
z6cqJ#EUHqcqR#{0$-1iP;b=rt!zVXcP;at7Rrc<Xy>V)j{h_h<oDTA&i}g7nZ&VV5
zJv0_81$pWssx}kXH5=QtgIZ&#7^#&At=@uQOQuLa=&!JWT~-zaNrXA@jR#4-jGUIU
zz1dqU2OrJ+CiNh-CZ02Ufr&DQ(uW|G!Ydt5oKL-vy=zu}BQ*lOG+6Ak(R#!jSiG9&
zTkLj7b-Z}qZiicW=Skz!*2k@D(gk3)J?-olo^NAkOGKW4Ib^Y7&}$tDIRQSTb*0y-
zD-LP>3?#f%tVqNP497%FrxLtyny$`GS01WsYC=mA>a=oy>pZPfp>pX+!(+*~@&H+@
zl}=GSJC#&s;_7*F6;@?YqOmk>%YiZe3VHsDynjQ7w*<tApSIj-+2Ri3H;eBN|JnGX
z@wEfwZ3p5!R_|8m4cwBwv^=;pxP?GmQNM_P9=F6V8@E}{b{|IA`?cpC9Qel^Ms-ID
KzP3BEh2=jEf=+_~

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_786715.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_786715.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..95d57ad2ba2e55ce3736feff499eeb43cafdb2d0
GIT binary patch
literal 4266
zcmb_fUrZax8Q)p2*SlWZU>w3hLPJE3$kzgia|y>OA%c()T?tpNX?j69t$f}E48|t2
zO9I?l+C-6JD-W2q623Q1eK^uYY9pme9{bp;4~=D1tZ6Dm3NJiVBF9y#`qF;0{?iTT
zLZV}&o&CP~X1@8&H?zO__Rn6gn}LGw{$@M~(o3q8i>oATJq2NjQ5Xfqn33WejUY>B
zryL_3VpKF?`6&-Az7<yGCOogVQEik}9Cx?}CBukI5fx5lCThRiQ*r*Ec3u@ndBt_d
zIpVJ167Db~63eJk#j|G)1>GCe?GSPG4Ssy?$MR6b4%7)I2RvK9VCfQdMElY*0s8i$
zpa&&;(rvg6$K*8#9GbI_;<k@rAZUj8pyVwn8Ir+Gf|m3c4EW&Z0l_>BG9+3jy*32=
zcYPUN!=tbd9S<mGC=+7wZLjr;Qf*5rEASZz=67wIzh;;DYxZpZTH8!jj)>tid=#64
z9&+XA8Qi=CG4k71=&LNYB24%zVns0ghLgs(vidrs)~KWYcR^8G1w~zPWU00=QBTF5
z^KiP70fU9u3fp44&o)<G1zJTg_89@g^Uzt|Tg1#UL4F9+qcc|S6=VrF71kz+Gog>G
zIEV-ro{efjgaH8)bQ4yO5%)AsjN$N<990M(#^LywO1M}etbjE^T%#cBCql%b%}h~m
z`Z#f7?K;+pQ_~Yz4b~I%DPjAs!t*IXmk1gn4s}{19!<wlMU`h|oVZE6B~6)oUA3&3
z9#G<-{kTXXrdjX^KPyk`SR-hbxL}wiv&tNC+z4aBVNC~w3bhscY4zZwrCRy-PdaZV
z@T4{!j;NjE;m9N`A`x#7kEwCJQ^S!?U7ecl1g$d`lH&<HC4YWX>6o6Ap-F~C=!v)-
zNx)LNJ~-8N{3KXNK(=+2CsiC*W4H|fP!`mV!iR4%-wKT6U1(3YXHnkWWS%Ry+^O*G
z*@EC(hxYDtcV;;2%1bR~e?h9r98P~=_P_A@GJ%Yd^S9=_t;<Tz`<{8>x!_)KrCk|5
zdwC_WDzvW&$8y54$8}Gd9yR5K(`N4rUv1_@wmBDQ%lX<?_T_x-=D>4NT4+c&WE!&i
z%86C6b4?88#L(l=lMf$#m=}A@zIC@}p)K8(@n?n?>$AhF?nBFmbM992+;hOzmF`+N
zlRlFTWVJ6F^HM7S6Qz`rZv53JOIH@JWc!x=UtU=8uh#!?MgN_0|BI)WbDh0^=*@MW
z&(&Y}qd!;wQBM5G?5hfl<L_R)busnx%;#DCuiTL>h!=x@K&uv7H9!?9@fC;+<AulK
z+zvR}ON_xxSk13jNe8ssN0rRLrVa%)f>vgQBx9gA?1`$+b&c{dmvn-aens0#`7+UJ
z!Ct-+ZGFmi3&+mm(T?MhUSacU%x(OSy?C9*&?*yE7|?K5c+O=w4cBBpY=fj%cu`@?
z_S;Aglsy^Ts1;YZmyp359E@aP#q=B8Ruo5hJVbtHJHLzF1?*nBj}c?=)%MY-%=S|z
z=p5Sk50rWTP>VVnQB_52DP8LpPXZ6pGZU16%ErUfKzlc$Do|BagU>y#N5^IoGa7N*
zWG66QWSqExFZ4M%7M)ZHUnB@p6IW+-c{*`Z#d2a)4iWd2aBN0Bk8uK9%s}`e1qOv}
z#~r^1ATW&#-cPGmT2Ww{09BdL@VlT8kDYh$`_OclcKioaCR6Zu7Y5P;=J|pkF7RnS
zg)=9!b&K73q1o&$lo+8d^RsMd@oHW?WcC##5B=6}^_#us^%tO=O`lzr4pKjZ>A`zL
zDO8ZWYtn(7bYN9#E_iDeK1+XgPfoGxqHj%X%!!TJ!+G%_u!(Qqn(s)?cVu}u?>lM^
zyl@GruG?Qc_r3G1@ke=I`!k_^oomSYvs{jA26U+qU^|`(X9E<fkQOrjds60;rK^iq
zv)6xlZ8`LH_gCF3!@oXVsBQSCi*xdu9>(LNSTiT@^*rMm@ljZD1fEKv`40`+77O(f
z6J?V2+nQdB+lqn|NGxsHL6vL_&ReN9iEQ`r_xHx?6>fm<hpn)a!vH2zoTmZnF7rV;
zyNBrC&fCuDg*QOY?rH4b&fCuD#Wz6j-c$5%=WS>75=Cz?z<r*f4SIApD2G5+HKT+f
z8{`%BMl_-lr=rgR-$}Zv>2f5jsq*m+dZ;((PnEqnWLHjX&>tFm%lknNchEK`<c&%k
z(~HJpr65OKSk-1?x@Kd$RxoQ66(zMIq19RtY{?Yv2m3|ZvBS!uAc-&szV$GoZ$U~+
zncmFx<^2z5ew)0XToulky}(2Z2hs;1l|svHkDX7vkG!i^ek0Zcz0_Ik^rHEYIgq-P
z<C^S#aHYS{WB0=@pL$&Xr1??vs(2QdZC5{gh3EVD*%TO0z#OtzF^I-qjlWF&{$J}o
zL9ewt_!xwf)D$nOju>S4Gm!fdp)6tRj5sEuIuYTr({y!qx_oC{R^wU%6Q}hXU~R3n
zK}0I<t~{2ADfby`;^Kx1r>7FiOib;;mta<UU^JSsZ8{J_FB#9@81LVigPT0V3U`}s
zHEpu{(Yu9@hyP;y$@s<r@|J^PJyz?h&^xFpbAD-Xad49XaasL3_EpRhpVn{DmaRU-
XAn!MxQz-Ci7BMx4^1hZ^l7;2J$01cP

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_827439.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_827439.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..82c32ceb997f4c580ee05ec4ea5e4d27479c4fbf
GIT binary patch
literal 4442
zcmb_f-ER}w6~A{p_I%pT2PRDdi^+DgvQ{J_MB$@AO9+MCg|xs{Vk1@~<C!E*Y)_aO
zLz0dwheb+8Jb0o$V4gM)eP9dH7Kw`f4}HNnD%LcWkl-b6VY8L0zO?6#?ZITtmzJx{
z^*QI>d(OG{p8Go|e-8$E1TCNX^W-0adP<mj<7&j_BOq=f8Ob<>#;U(~47)s)_KndP
zDR|1&Q(s#Bl_`au5?_`PZk&>R*XcX8fiZ?dGB48#nriv+T-pB$c|hT0ruo=7E3?=A
zW4z}vcO8uh6jB7wrZ|UV!a6ZG>M+Bne{=kEX*9t!nD+zigKzT>6xqCi>tj>EZ*4NZ
zQyb4QCNde*HxKLQg9zo2Nxj5VCVq*>4Vvk#dJ!DC8Msrkm}5=Wq^E()aSf{iKVAhs
zu=5}`IhnfayF>N?ZK{5uRo3kdk8XB>-mdsJ*u(GHp3q>gNdTF=$&(Y7@m<<G9kF3A
zA#YnAG1cmk9$|{6pPZAo&)^&E3Qg>WOu-BiZ_H5bx5`y}*Ux!)9Jz3V?l#W_kAOI-
z-dWh>?)vL@hS3~~1x7Uz0u%MQG0LISaednHtHz|F#jr!iXOnsiYb0u8yh9l&ho8~Z
z2`!$MlCl$sYw^s4;?OBIF2ktmFylZP`vx4Jo=p>N#-!ud^vjyz_;o|olvs;{FF4f5
zm+)P1MBUJmvLek&ntIj2qmECR(KQlRj*m#_gqqS_>kgiED0$BDU5RTBt?7pBuwX)x
z=Oi*PtCKe#-O~R1+y1MnHm%RZ6H5PNJTVRKsF^+S2_<9n>sq4UP|`E~!1bpFq>QSi
zrAt@kzL_}*L=t#rs2M4tf`11F_7Cnm2qR9r)G$?=R<w+g(sqMw@?7)?Jl8z>VH*;H
zg+11uA};e?`QsJZztp~DmbmT`-JL&Hp#w`F+G2^{QKEO`hqth6u=JpH&^}va%0e_h
zQW3)TZtFmPWR2wujK$d49$99K#_fHpZ2x0+pu`T`A9!%+-k~ykG=FT36AB$xhuvn&
z%bhFRZl7P}_CDqYOWff7a}UPujg`4y<%idJvCwPv+O784<w)`DD!(g#oS5Bj?Jpd$
zjuhLA`mN5g@FCa?w-&BgSL{p0z02b(dso9B<xf>OVM(?+?F%dPvb189BA?urOOb)U
zoGnF$O56~rrvr<p7EUdlvwv=VS)^9B{e$k^gwsJ<7wNi5*8!aq&=e!9WfC<U0TDt3
zOI&=+LulSaCYo}^FLyZ~$QxJHh5^-@&X;i~%<x_`GVv=`<7U>jtR^<dd)U%mV6{w5
z?}sh6z`RD}ug$Ng3P5oDmU{4O^<cxp-)2~AzCa=Rb*Gc_zhcx!&Mp^_$!f?vTU&iU
z^CW*TMz}t1GKPnYQ_XP6Uq?spURcv_veP4Qc7hS9>yf>A*C1z&W5`h?c-&@k#5c%F
z*d*RHyA@yE3g`wTyc@VvyAzB|x>*#M-iq@m#*D825867(!Y)=O5yEJG@QcZ$9!<sP
z6fH_%BPy$kp842_>e-nYRWqXFN*p3viOR`z^yrc3(BS98eE_2*WMd*A;beS9aTrah
z5`iiTI($OS7|DsOn$;aYfMsIR;Q^qGIVqK#Rvb}DDQQ41Nl(rzjxU|eIDsliIpK^l
zYe+NdRYjB3acRI2&t*YXS~;O<s^;QTjNkhF_*u!dF9DwKA{*QeorBLfp)<!WNWcEw
z`4c13`A^4ARPmUe0HoGQHTD8zwJ2F3HbSB{1fmb%)4N<O+~84L`^}E!j{Ij8mMd@;
zXZP6gn-j|u#Y@Z6Wwr<K5HPFD>avH6)Hm!ccBSo>Smr(gU}V_E*@an~`r5QFKVp7X
z5rc)(*6ACgOSr;ti*pNecH7svB7VelR)XQeSJqcIq$O&N3q9sKOI&AhcbOyb3RVeh
zQkDRwY7Dk`U?N?`_&1qbneqpHrAS|XbS>0s_x-8&anFHL&w;<SmV16t4js;)1V5Jc
zU;F)9sOw?(*>dRIL-riFvNQ<rNOu(J61@}DR#@Ks;|i?B+O0PPS0+?iI{qDI{eg`(
zB!&uytV8xxS=jxM-mUe(871KJ8c857@=?&=L`kUe8ZtXc)LWX2Whi(Xs*@&l9@H^4
zX|Ay%{OQ^#!^1XseU$fxeI{VD>^}^?zQOx|%)CeM-%Z==y=ULTd+NQO{kv&<z4zQ(
zc+bCA@83<^>%A9<_a*}D6-U=e=&rNSK_Qrx<4~UlWaUaSp*Viom;(qE3`IAjL|j*-
zz3U{X*GU=JC?05J_G!Iah6iJ`_6d>sp^}v|8cA?2gvDqVpR*}LZ@^6glREK=U|<#f
zT3i<zibCxKjDJQZ_PGf7B-D~W`GbhKP(iQ+`<Q)sW&7Rice!tKtL%~dv1cIfwz{F-
z!z;b_{SSiof~(xo{O~g_V#kYZE`~kXxhsEi=}d|4YSg27^GW6RLJzevbU*T7=e?b)
z+%Mlo&-?P{r|8*Wk=ULebx|>fC!S9}UHa>Po*j(^-P_Un;W(XeHQDv0;D3%R)bI{l
zr!+T4d{aro;UI_VhB7--&3aDY3ningn&Wr>F>$Zfy&y+`><hOmO{gjPTjUz9UMPDw
zt;*Sya#R}yt0eR5*Pz?*VT_+5@t-L8FSO$cW)`~^x;Cf?{&*vVLM?@h*2V9`z-{^v
zC06BwsBQamW+(2cFyf-QU~c$;e!>O|q9tzlf!+upKD<F@!2Scm;>CrFn;dYPr!m68
V@5Le9{(Kgr@UC(wx*)hd{vT_nZTbKJ

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_843690.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_843690.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..160936953e497388a3e502cf7c6217eb208cfb5a
GIT binary patch
literal 4395
zcmb_fUu+Y}8Q)#6_m6kiu@gc>Acs?N0jq@&1EGgFxRCHi6w=-uM~{e;WxN~W#P&L~
z8%T0%$si<RAvGK6q!^tl<uO-~dPu1Bv5!c7$<|Scrc^?@yyPt<*O$Ju->m<zm--0k
z7-?s|`M#NNe)G-DZ)X3hC;<x6s`-bJ2Oxb%Dz(H_g^fRfFi)wJN~fuzN=XmVZk@^a
zhFF@?=uy{Ct!t%J8I2v4f2bq1VMg`cVINctL%hmr)M)7c+o}E^(Q}$O%&Ghxb|_Fs
zCETHgB!<$Yx?g#Uj*4r<?I7k)UHEnXui}GAFHAp}eDH0oFl2%zP1=$)3iZuNr5{x7
z`G6I$d}CKB3ei*EUhL*R6okwYA5^{NB}=l{F{tHbivl0qG$5FUPL@RSykgOy<u_@A
z76V#gleWo&wzg27;Vs3IRpz1Z0hu49QL$2bbF*G)w0QN|hPD_f_|8TOdq!%oZLE+=
zKV)mswAg70V%EG>AFFv9*4zqJN)p8eURqSYCmO+eVCuqXxGvTOtHtt@b*n|n#k0){
zTieJeTi^;?q0LxSf6XKDM64B0m6l`{`BsnD<~oqNU^Q8-mi&;btvXFjQBi&nkqvmg
z)+)+iHj^;MuwOSvG!&&Vo0v=)Rr~tMD2-rfDjL9ynZ|(}(yyaLCZ19;mq3Z^bq%v=
zJ)weC$NVse=Ajt&850@e)*QjCF^){^H%uLA(e0T295Vw~;QJiY7co7EeOk`IvSFf>
zs>LVcNWY1dYE7N`Vb!%FvV}1R?OY7{@URijx)3op8PA!>z&v!U3RMj~i5YbY5NU}l
z_T5Mz%p$`C(CVbI9sETarvLn=`=*Y@j9enAb&n*HV=x~*yFYPV%bMK=N_LxCCf5zM
z?sP1k)lnvX?WTGlHx&m}942Jy*?3ZiY5nr>q23P;f(5t4Jx$|d8p>*Ev=<QY@EPZU
zQVP`f%~UWn`$h4KQcqdwD4bd06+3+U%M~HGsx-}BDPFP1OMA=8&%h#u?Y`o%!oUk9
zXm2n5!U=adO4s6cN9hJ*Fl6_ZE;=nyCm3Bk;{;=cvyF7CLSU9J@-|nxwAivN?0+U4
zbcBPCo1e5lYA*}N3w_T;X|}D{X1A5h#Y4+t_cJl(h_T19C&wNgD~l%zr&c9pwzt@8
zca}PrrCp_QM~V~%o(JUFu40$nX{&SlO5+QM?@v16eT(DEfu3*soWPMn|B4j+s(HR`
zu5EtT+^$k`q5poW9Ny<h`(QqzG@}-GeD%rv<+;nHQw!nyXBNZDtv_EhzD@qQ|53{6
z{>W+V`^$jSdhThD(|W-XFBDEaXSuuQZk?O?t$nRz{+->k0U@POgk+s0YlAFVB|s1<
zN`cQMd=^fGm+-BIlwUj8c^}xxnb?$o+<hv&1GF_#%2O8ohArvFV?zJxb>SUsY#(eE
z{ye2JwcG9XkMzGvt`|1%H_85T)2L9BUX@mzwDOz@WK&6v?rO_lj{<M`Eq-hO0^4LZ
z)%vJDi~pKZ+28wW?QYX%oh&VO*o_ZdceKS>EO=mG-YvD>uS&H(4n*Mfc5Vwh4+L1f
z=4pzdEN-;H#ccV0M}11jaqYj5raLDiiL4q?ry`jN!;Fk1ZfFr;$B2>0KsJ)dY18{J
zjiii7Iu;=ZKcecI0g@RpCUQ9)nUP^FVNM_|qNXyD6CXw}eZZw%U{kW=fKAzS${@T*
zoMHAxO1p{uz>&!j8~|1^r{d|<n1;Cujo_xNHfhFl`b`bR_2GC7%b!eS%~VD^jgXF9
z2Ekl~HlxC(J&*Roh^UohgzM1zBqJycvK4B~hq|DGWiLOWBcLK`<0WK3OaV#>+hKBK
z?_DgMUJ=AuuE@<G`$(yI?t`+>QRrK#az(TKSt&Mmr7Z3)oLZ6O*`vjy_O<zuxsks~
z?=7+YOOgIE<kEXp+pU2@Ut#>Y7<?w~aKs&@&a$`*4s>wav)~>lxM$(xa&RxO7ca~l
zz5V6$VEa<X`KL#pMwdRlw6ycHa`5t!aCwz&D}_s}!*&3!nb-^>MbAu<pcION9lj^6
z0Mm&@(eAt_d&N-OzZKrkt%oSNWhUlAJw0=BiET%4%%~)M^+cXlByt-J<nvUD%6l*N
z1}9aeRe0Tc9up1r9z0^I+C1&K(0{r&=GCc(^TyO!$!7tBss7_IkuAo9SM@tY|90M9
zk6w5K^vpYr{o8qaJ$msC&<EZr`nU7;dh`-OZxOzf2iM5fT_Z$-+2n+pfafHqYBy3z
z4f|Dd3b;)&HN%W26NVP=StFZzjr`kr)iH17&>H!#@@fu8S=3E*et2)HSwyaFmztt1
z=8<Mhq)o#^d4%2!f{HL(h1EhX1kcM0od){_((r)$<a!Yd70!MyQ(|ydDoS>rJ-)F0
z;lv;F-{hBt4-0*(px;^CX@6Xz7rGw%pD2%%W%uDDw%UnOvrASlI(8S%&RlfZcCQ~)
zZ!eti`e7D&AGbc~c+{~ho`eU~mVVw9o}c1pT>yeC47#isRoo>(JrG0ORJo)Mq~Uj9
z0$#^hs7c7(7{1YziN&OzHB4<XSG%n)X<0)@*zf)`xa;Yz3YIEM8o#cm)o&<ww8|<9
z$1}P*k=9P2K^T?n5@Q^)bstUB-%;{EDCM8ju62%LguCsx+Si$#^!w{Fc}ia`UVW)R
zZNo<~az%f<jo!J!%Xh6?*18Ym7lJY?7v*(7$lxN-w84Y4@exhY%1gPIZu!?FO*QQ<
L2P3y67t;R#W@mcp

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_864396.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_864396.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..55119df06c2af2ac55dcde7961f30c27bf0556e9
GIT binary patch
literal 5150
zcmb_g>u(d;6~AMT?HP|Bd50tf9H615Y+S+uWlOS~kO1P5EtF?UWeuK5;>54q8IuQN
z$xtNX^1%~zD?6gqhTRWj8>9vamHiV|>X*1iC7MzR3BKf8y4gyrereCOJ&s9D2wJX`
zJLlYU?|IyFeSY`muXei?L6e++8v33?=p|wFW-bt`e*q$e1SC)a)Sv%S{Zx)O1daVP
zg+yvNr$=9!{|W|?9=5$cMz{fkV7yJw7X<wlffmtl#sAL}Om7%Bi|l||u-vBmtwpbx
z+o+#2AdxHTwM|fNcA2Q{(=6SmKRtTN+vl^Fm|=i6!rv<CQ%I(C*|0&U*1iHYUy#S_
zid`{|Ttx^|6Q!%@wb?o)P>OB7pe^Q5911-GT+FE;&|#W1Av6h7Vce|Ku?mF(nMLP8
z#^`jcQZayx)p?Lvbvjm6;=i6c-3?-+LU9U)hsJplF|=Ve|1It1B2zA%#rUh=VyW`I
zS*j_qROTQl)k-yqzvx-5QmfFDaFAnlC9yb)VHJtt$|6}LlsbhY*(hqOe~a~+b=J2C
zw625rpwtuJlr5x>H7GR&z9GMA5`HkT#u5uvMMsK+Ql&JO&C}XREt_dQg5jE?sv@Dw
z6z4;eeikS+f!yXkOb+UxKGSW`=pZkRXr{0{B;vyO%ExXBLqN#QX$Co<StB?+i20z`
zFKA{S^PxdeqXS`H0BKmW3;-$bZ`X`cG)UCRLz)Roqgd8Vk{rgOW)kFyi0E$8sLPt6
z=L-B?)~GWY)u-7c8T$p%JMP8du@cS~4rum*Oqj?COW4<>`K3kaxR*$cVno8^N1$0i
zG59^MnZpAEk~fr#OEZmoBQn;^pgaG~^VGOz5GII}gkrqTV~xg=ENC2rFMyX39-^Xs
zVQ~N^j!R8o!S&|$pI>;!!gxfA@IKKq#QR2IYr>%q_(3rwdnD}h$YL<!0nQU>_lCka
z=)E>3v_&SoFyw`ek;5T~2DayC2S40@_#jBMYH!I@?}&&)VgT<2H!Sccorg0MN8fEh
z&dOvk5lnYw9oyo^mn;so<(9I<I9}PE$t#H~>S%g**1jWtY>BH>yAmJ8dtTV=swKTQ
zQ_-5Swa(Qo?9I44Gq%on?~>iA?oOY{RJk*D_uR3CUuX7qXYAdu^i6_Sj5TRVSX5KG
zXU_PP+53#~WEjt5!xQTxYnJ(Wyz4p3CF>LQYF%2G+xe7jd&cg|u=^hGc(Uiwo-ErD
z?|x--B#$MIsr%H?=>vDqfD=}y+LCa`k3Q$@$wP@l$&N%vx;ib*G-SD*@t#*zHL2F=
z)^t^xpQ-y@Tm00L&8hBBS5F_#*qUc+GTe{mxD2;H-m}DVQ$nIaJ)iEHzMNs3!4z%2
zbK>TSsf+5l)P?B_e`x>w(9EIP1NS<gHF+{ko^0(;7v#UwM^<5T5#C9<U8HM<&R3|h
zKqBOXKf<p@pufYUkb;KE_`0T0<wi$-45_o61nAXa?G^>=OZ6A@=yJg@(gSXE!YuML
zUDpI-dFz6)0cIAF3V}D}SC{p2-D=|DI=h68y}|ZXC_BGpVzf-oX|4?uWM0=4TCZF&
zlR_(|T$GhE)Y*K4+DqR<f=MymLw_vJ&Fxkx<`-t`yA>mmZX~B<lD}LlcSTXw(84^$
z3{ZmkHWRbR)%qI6LiQEVo>I&S2K+|DwYqHWD_Hc{K)!Kq;XL5VH)vsWEg?#<KwKMJ
zqBdozyq4E3ncrf`yeUiNwY+Z0pqL)A^M!m-NHLc?rHWDChhHMMwQsUz+{K3kmoVW9
zMkU!b#9tR(fM_m>4?;J@N5o|Ue9QlZHd%E{<mD(9U4lO-h9rMD<eF@7iQ_&|6eJfP
z2!zK(!Bx0TcKC`w3<?NM62A(_j($(2P=Xquzy+%BD@4HbOz-(FOmZR-bFMi434Ao>
zNPrJs6Zp=_ZKd_Q?MNW(;{#GB5P5kASxJ5(-^Wq9a)!nq0G)&EWnvj%nVcMeWm7ID
z%?J@_^mV^DrkV4Ap*ch1xa^HU2-q7Q@V0BVbJ36tf%ak?#+ua^25vAKj!K#d(AhVn
zSpkLQ32(p;a6+I&Gv|@l&8{nXnl+65gWjBJTt_@3-rzlC4Lt}zo{yYdI(1O|B)<W+
z(y(ziOdy7&0SF2rUE*w{tgF{jL(@Zl<F+l*M;Bd3v(R(fmMqMj=*{SF#?;DNH<oPn
z95S@4qp7j!u{55(k+todq5zDNmlBuMbLpzjx6Evr-7&K@Yj2%0ELB#e>Zj}DCtu_(
z-0X>W#YdkzYMwcEWgNR^&t@IF2|hAYhi=_??r2<W_AF3y(qj9mZ;pR+c(Lh1)^Tx>
zx%h%%leUEIt|Q(B5Rz<8G~eA0*ugrUu?-ovA>EQ?x5m3)a$Dm)&*}O!ouQkT7<Q_C
z3Im4mKqi?4qgLMKX1gBr-tYbL_}u6hr`5Bm%hQ+B{Aa&ffGO4_n_$(JySCYD4+icJ
zd^xnx@<k9f#6Rtyr9KOMUAd_#+)_pTzwH*2d8G;gh>|`1C`<NpTkatFV9$$<Tq;TW
zRt?ankRQcLpE>08u4@7%z?-h*%3bCu^pKt}jK-*vYwr)&W>^CbD6@tlh#3_C9Km!1
ze0_^OcuT%V@83<^#@;iV@ZRuV_x|0qZR|a}3Gc1%)%$nTwz2md@m@ht!EJrZ<mfJw
zYYANOqXG~0+$@OK{XP+sm!!tYq9l8Lyd-+}VGo&0{-04g++ND;#|PGlKXlWWRCstE
z0a%4FdF|$kp__(xiYP?`vQ$!XNnMqQPo$XU>u5#Jg_0)#{uJbw$iz0NrE&DaQ4v4>
zoei;$B$wdSE_HOa?qT%Lv9DrJnT~iD)U0GvqDeiQre<3oo1WMo*`KnVq?XmHe7Y)E
z$6hpVj~|~plc5_+_2A-srn6L!VfNtT+9%DAnxC>CZ${7i^5=)>Sz(Z^I^LJ7iEeu?
zCHOGxq2|nEXj=fDxKVhfX^c)`0?L|k*e`1=AgCmZ;}Kjy%kyxD0Aw}g-od$i=CY!3
z`ILGG!vO)e!}>g$7j6W>un-N1otPw#V7nBAZpBDZ)JtUh2eSVYZCx=V19PYGX5)&X
zh3bHs?x;v!O<eu98n{&>GT8FtC#WWByV{#NJ$-rw0XZu^2;2|k$ggWx$;j$S3Q_iN
VZ3n69e~nYfxjpM}-Q;ra{0{_P5w!pS

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_885795.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_885795.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ebe95dcae1665005c2338324c3cefd86b6bdf5de
GIT binary patch
literal 4384
zcmb_f-A^0Y6~A{p{uqyKAPGw#Uxr;JvZ{a}<g+YUSdwfTLYri}O;A=N$1{M9?Q!mm
zH^7c7vl}T`d9aZxVV**zO3ju?Riv!KAJDhH#B0>Jx2c2_UU(x*9;&KRd+yjCIbJp&
z+FWVI=bU@y+~58Bo#VfGy>0~UTlvou{{ZP3Q>x8b5w=!9SU@t8aTJY~fAJ_bbuMNb
z<uOul#Eet@wEQb`3Lo*jY-8FOC);lE%ax8%r!2_4f+CGS^px#CVs|LQm_v5nvX8ng
zT&`PaROFB%T9G}|IN;u3VMnNQaQIgrpO;2L)oC%a10EYZTYu%)6m`sutVKYtZ!%u4
z^rxH#GMt8O#*Wa87oij~@Jl*2xR-RUCNf_i7s0|Bj^)aTDVO0g_({-GLd{nUX<Y*h
zt{Jcyg3R5wEwgz*iwNc4+P7{g+ijCIEB9;0!|!-Jv1Yt&j)~zm+-!wqe4n>g$0OSf
zk6~x?o)KY<yft(4S<|$HNRuU6g5kAh>@!5e$HsUK67h#f3@`hx{B^l^2ChJ=p(fG}
zYe-9gb5Y*2hVAyr;3B&$S4)VzXNi_joq-|TcT{&CqiGayju3W`#;cwIj`FdfHc9QO
zKB15RrhITJtX29qPX{o8X`q0Ia(a}y6GR;+!I%`5sUt{&@o|OnQ8g$-uS%U`AnHeY
zs7*`8SXh06^4bleQ@f_CM4@(BpH3*$twfcW64xbtI?zb*70L}=h35+OXgUeYiZmq=
z^(Mt5)TSgf!VWIAF$*73qne3_;wj3>)717wkWi-<3Pu%alJZ2;0g61OF|P2}wg3FO
z>!wO3wL~zabWH?9lYmc+9}bQKlrD{gx^yL$=mM=P+9SnP5|ggqlsgmC5||_armJx&
zqyoGXCypLJc@%o+PN~LKnp8+!iIVqWY<3;B0MJ1iz1W3BZ}xEJa2^-kZRw9oynXKd
zoTuR4Tj2Mm2THu7MjfnE*WuHXnUlGTd1q1dr-w>nL#{n@B0aP&h}o7*ORgy=&$lk^
zx_5b1=zb#f7KGl1mmZBi7%d7Pr3ao?oOZmzX>i@`$sWucgh&_XoAVb}-3I`puPJvq
ze`Nk@!FM2i?kRvco;jZF%k))XtO??roN4|2rG?MtKg$m;H7%aK*R<OFvwP!(=A$co
zp}BA6Mxptm0)QBN$~$g<GW*HgrQ8RZt9kCOebJu3es^MV;>rH*!v5~!?w*xhf9LzR
zV8syG%U=7~s})|M3TJ_c5aTVTZ}q|fUO)zlFl${)*}z`=Riz&o)FxvV(_#wX<Tv!h
z5R+Ykx+ZhgTPAap#{qI9_|;~QihniTuq^O~aquhSFg$fwn0k%n1U_Y#*&1xa@>Lu&
z%+H|%JC>W_&>=^aTVxxKH0;%RT5IPt?1po42<9y67K6%s)$c2;@3bOr!&nBYdZt`@
zOV!ih$IKmqyak!$N7mfJ0tg_7E?3qYL$2FyHw{~Lq{}Ga7}@wAv<;S}!w6wCbL!KH
zu;w4`In1uR|2lBO%^;EevZ`qDL%Lr}CK4*q{bNc{PZGs1hhzT!5B<k_&kuH*Gzzq6
z*Cv9%X-=Y)1xJ~~s5_*__3(I7O={FrB|I%WqflEc9H)*lq0ol7GNnri^`=53bxi7^
zo=ZviE~cCzL?zS?ycwDR#*8KOX(<{8iedB;5bACUbx%p=_>wwK@ddIQoT%@@z!mB2
zZ!Vu1k}m&Z^o&WQq#b%Rb~-F}BpuAzQ%hy!7?_w@`!BrGsMNG$p=G`${mYWz&bDS+
zb3M74rH=XE6@`PqV8AkMnYP?u-o4bb=qn0`(t~SG*X^m<sT}_L%Utj~XG_WB%?@XV
z?~Kghl2f=nJv*Ii`r63d_|Cbz<ZZ})p85QaG{>!p9!4~?L+OF^jZ$-4K6p327%%Sc
zEHrnfN1g&Hb^h_-la3RGjuR_Q#g3mBeSPV3C8uld_*Y*(^|d|T^V_2D%464+b;0*U
zXe|h>`Szl)H$Aw{x8$4he1YFratU)ia|C{}u8b?!bVmfS<brp@3(;YBY&If~FMBF;
zDi<k=?T`6(@&PPB2p+3hH6aH)vj7JvRa+gv-KuXgmZ6}nsYCdB4}_qCsaR9Erb77X
z(Ky{=B)C<ab%SjNu!L;y11PT<56b9wi2m)Oy&Api4bXG%bnV|R+N;qEZ-CzYPSL+z
zv{$1S8F~W&t9nK@*wNi^!3!$1q#T5r(jhBfghL8pB`y_pMbo8FP*bGt4R)kASb0`!
z?x|IdkVAFdy#bzdGn*YsPB~6kx-uy$z?;OIjOtnqA(|A&FfocNvs<GHp{7_PL(qR7
z9<9@?($;*9>2ohUNbqIFjF=n9-B^0>e)2D=Z&ItS57Ps{DA_%kJy3_?rGpRckGv1O
zt3p38i_n}4=69GZv$hXvrMU|QzO6P6vHV^AwQ;zmV-K4j?R&6qRXF`7ao!c4pAu)&
zg*-dcBPJ&X@c8qIXLH~Fd%Zv4HFt+}!gA7va$@U@!k>dA)YjBhm56ylY>}`|1xSvX
zu1qC}na-%=QzfpkbZ7p9Ft^s+ASyyyh253L)u{XpG6ybisH-og%E_qGPcFcyETe0z
zCfc-NjGrOTKauxeXzv<!-fo+1+vHmD=}jN<HD<46u6^GC+LjG*9@GB(SR3xhomm*3
rAKpYDE-8PC{vm3LE6rQXvUL_C?ET(z4DWnCg;B$SqR&4onppl1Yh`JZ

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_960121.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_960121.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..29c1433b858ea07f5680863329dd094622a1a6e9
GIT binary patch
literal 4428
zcmb_fO>7&-6`olx$zAS})Q=fOk{wfOtbjo*)w1B)u4C7-6uXVBHj*3ILV^XuT}hNk
zt}?rfe!2wcz(BZg0a8U#(Wj_DfjX6e)_@E9)*f5*P!kktVXFcL?2B%4<U`R*`)2u*
zwL<@)8fb^}-pu=%nK$2i`kUYHL(oEh`rXv8VDyj@wZ>Nm+xK9wjASI^1RAgW;&E)#
zOwu*ZVx-_{TTe~2@+&h6J1suVqtpZ=yRNdU)roPh?2}mqO*egerR;tN-=pxdxAEKr
zCv#Wb<G#AT{8cnAFh~*V7R3b|5jLs05z9Mx{>NwDmqub<hj}-QUGQ!Hf}va2acyoI
z=$%c*tJV38*Fc8Xa4mxTq936QGVoJ0HkhYq#-W+rsTaY48=lpw#SCX~20H^(hIdGL
zzAXhlaErh;c$vBBTBZAdHeI{U3TgLxecb5!>bvs2z#iUZdxFDWgYYqU!zVMfePu+)
z>Og%%^?@N8BE66LZu~OqkZ2HehTm}0^Q%cL3UKBDLofnVk3+VRHQ{M%6`7hws>$%#
z(E-mT6LjcmsXJUBK&({mF=+5N-L?H<w16U>5kkXavbHwDSZp$?%~)<#pHj#sjmHQk
zG>juYi_sI7Z<eT&B$|}svgL`AXlhci*n}FDVOF)g6EM^d_gn5c5LYahmQGr%_9@XV
zx2CH^i8NXGlEn;NhVPOkYC4I_iZm|~b<V;gmP?t{2n{sLMLBFtO=z}t3(s4OykK$j
z67^4!E!SsJVzETi!LmHB(en@QX#e?1-<(QjwApA(>6?niW}^C(nmQPrR8o4MMq+)s
zlAP@WsxQ$mrBsrXKADqyXBQ-3N#L2Trlgn({vA8=-9!C{V8&{d980Acg`|`O=>psI
z{b*r0uPl192MPZCLGxe{mwg@CGwZB7*P1g*d}oR6%${CnJ-P1`#FB4siQStW+(B-D
z=rQwH;e(>LEQGT|>q4;5Wgg8AZE(K4*Yp-}VQ7gf>NgIraeeo>{u0-JyZ_GdTgS`X
z$?WM3UdXqZZH1PCywtw3=f>C?f9O6xP~rz}kKP%-HD2a_kR99zHs|Nf`6644uC$he
z2eRijd}6-G>?yonJXdOdv+O$nP7C7CNq)|pD`>^BrG;{^t0Z)RJG_vS&Gui8E`PZ6
zVR3Nf_3IbPp|@{bEQJpJVeIbVTbE0rQ-AI%h0c`tGhm7Jd~xo|x!h>sP4jY*S=sXs
zwr3j-3Xu-lb<(a4I?F>8Jxx-vD#ic{A&N6LcBUXimyv;{ZT8b$#sz$*RCO8<ui<(b
zx5J7$76Pt5LmD@-wnLiQpig5*tEC663Fe*Ipt`O$Pf`5^^7y&(Sg&JoBiuFW$dh58
zcN!V@GiDijRvC{>&ls}M&Q{yUBF!aUJy@GJyn1tOJlzP7+%-h3-vej34Q^%#!a>kO
zHCdUht@|AE*93-qMT5m|22Xv1422E4H%jbifb7+53c3LSSF1OHk-;{)bHi0zKZYXi
zk<I@?v%xWr5Jrmw7pLM{I1yb?NSH!JSXLD+^_Cvi(zCNF(Zdr;6hc@D%kgCR<h$V`
z1Md&^M*IMKQ_)$)@)D&o@W(a4l$0KyOsi?l@;SzC0La*s<pWUC7o<ddMzKUCp(FvV
zBrU!OXqt?tEKdcPtYAu+*QHr?P9c&yA@y70Xd2Wem0?0uVq=o!so-nGxAVRE<|W%5
z39x)W92|KKItyR00vAqSlHU92*zk}v_QUbv3Kp}IfYKT*%)S9w5~dQO6AsA{V7&pK
z7O-(}y}4z%ZK*B$qjiqY^Cn;DE<~3nmnMs!EX|a;Za_jns}8fHFj!>1<gRloE!V{|
ze*hp+5c8+ZQ)|NBb<v+cZ=Sz4lEdqQ|Gv;!5<1s}ee3>U{$umwYf_Hc-~;#h_7dM-
z>?-pVPQez1NyZewK$XCz4~S4lG5TfddaC?JZz<H99oYyp7kYowbHDp&sr%^N=5qJ<
z%YhTwv+G_i_r1@5wh`#K*ZDy?FnW(01vhd70Ksfqku9<NK<zr`v;X)!XL5z+Yl6*#
zKKLZaxjkDgNDSnUo5u^&WufaH+eNzJTw?Im8%-ECyfM%(qc{|Kjx<iQ@{T5B8R}g}
zsnwv+yUDIrxf#5x+8DhKWbove`onb@01mSI1o-*_dmh=li{8JQw#y@dD7uAcp?
zX?wo+{7ZNbW$rGX{i|tvzV`z4-ar7k;>acq-AxWUDE!iL6pB%gtb7)aDVAH-7XU>C
zUD0$Y7S$B#&?bE%o3!k6viqIHVM2q}$r*^S<Za4xL**)`2+e9XY(-cbqSFaob6_Qf
zMvZz!aj$}SO|}b;B9IKj{Cjj^uZ?;S0!`VoPejBA@`5Q8P8U91dF^KU_nEIUYuvlp
z(~p4PX?8+=hgW)TyYKjK`PcZ9*}+GAs1Pl-*ckR;-~Q~`+=UX`;nYLw>uII;jUHy@
z$nDUbeYf_l@uyx!&u;ni|LED`kl30Xu~9LCCm&Be%>D7-k4{GX_U({fI8G~ANp!sl
z_#Yz;HM_;tM#PR0*K}OBc*vicuFTKYGTuccrK!Yn+y98zS8HF8B|rj(+m$BOg!~n<
z4OcFdJCRi7bV4~vM!+g98MHKXTP}?8LnQta`TvFXKEU2DI<9nVF(LfcRsaQ>@*kNW
zeH{d9+l3g>=0EOj$K8eD<?~DDw-5|hl;0+Pov?>@L-x;K4*dO{zrM3gC%1<%!v3$t
TBe?bPJVwF&<v{p~V7v7{iN0+s

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_972847.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_bwd.py_gen_triton_code_972847.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..23c4ccc0824ea6a6aa7ecd8fa09c9a26ef73f5be
GIT binary patch
literal 4431
zcmb_f-ESMm5#Ku=d3U@c^%X^xY}xvV-7<}(RyOpJx(;N?c9P0U6sM>wI6ct36Ge&Q
zNqeV=QjfqXF<=pX;0XvI`Y8%fpiOO{4v-=a5Fmd*Uqn-=iLD9<uwV2hM=4PBrJX&B
z3@yuFs29Au-Pzfh*`3+n4F47g_z^U-`p@G-5<>Urpw#%?&dzP<tRNMsOdO3CzsxA(
zj@c>CD90d;nQ-NlmKMJ%t8o+Z!!$Y?V^z-;?#AxKD6fhtr=f}JM>$pRW9U9j9P_FC
z74N9OY?p8ajY=%iq_Sjro(cK4sMuk`pB{Q=;8)6Uq_izc_QK<VX9u%%izY*fv`xTx
zZ&R5YyYnf&f|J|Jhv1+r-;G@fDZxS(Z+R9#*8;GnM2mT7?6=s5#*!si+$5|{$rW0B
zk7}_*OP~@hS!Hi}ZqR)|n-GiN%C}h_?B}NPt^!Zd=YPTaf))Dq2@@+|1?Z`%%uTL*
znpLW|VpXubv2w?%vb^+EO1oNsuufH1tl3Xfu&AlDM)j7Y(ACritD3%3HCC|LvucVf
z79i|XwH4C$31SO8>iVhHl5hG-eqzu(3h~1<@KCg5eTXI8RM?m#UfmqmaEKvXI2ki`
z=eOSoF&NB1A(60VocO1)9>w7)C8iQz7>5&4jc{>2tir5L_%Z03$GeEfn4Kb=F@sIw
zHB23Ap*q4`B<$dC;kig;!^AOFQ<4hS=Lj=QJleE@X*3ZJrEn2FZV=z)umL=Tcfaa<
zsgraKB21F7K=gbV#)QL$snTWI7!Z?29f)dqwEgGZ&N&@V8q?v3);S)IOoq*IJ#j1?
z)e>f>fg_!!HZ|P|qt1AjlF;##a(Pben4VXFq=3n$o=_q>7~a>@)qA1`W=Ne<!KzGZ
zIHARHJE*6($7q1tYoqU9LQ)`eEPX7?<o!+dzy^%^(tXZImd{Hq_TXk9=+rq@uBJT~
zXt&Q6g4NFP?7>{!kzDYIeQwWiQ>t=W)4lfKhTzZeY2NW=Us?{V4&L&t3n%UhJvpK0
z8}?iO*Z#aPVE1o`Ql=r@;51}UEFW4`Z?&(B-FL;loY?nG+qbWN{c2u3W1qh7morDx
zN1YmHWVt>&vhF`@4-}-}C$%dL%MIDOtZ}_D54K6|_TYUmy*u6Qv^g`&N3WgAURWLY
zQ~PIc<(fNkQs=E#a#FWFSP-QpHQngEpY311m=l{p0q48==Hi=6zj4g;@3QZ$s(<Hx
zx&!Bf@Im@&rmvUb71;$8=psZxg^qW!5U(r9LKBp_r=>hVuUxe|4{*3IzsfWMNBL?a
zi+RjyW<PCvR#P4HZtQ74fVRp`_Q2Mvfv++J?DCg#Mv7YTY;u?<%6ZJ5LHZsG>2UHV
z5TESZ=%dH1x<u0fm-3oraNiHetupAPd@A)t;89hjeJ)UmyjfM^uz0hk)Ssv=^?vwT
z-V!*L{UumlOPCylGnLHx5~s?Q_+T&G7?TpshSHoRQh!4_g!K3rZ<V!xY}OJ0E_Z#!
zAj`L3bXcB}z6%sixBd%li>B!qLJV3sepU;cvsi0UV^dnfi0O$IQ`cMKVI0+3#&p~=
z)YWnsuxBoe)s`Y)bhwZVNJ}F*Bm-uSho?2dW3AZn74eezBYMJ&MQ8O{gLnZ}Bjdym
zh-J<z@z|tBWG$|NN>edn3mWlE#S+9<L@iR4(2}Myt<Py#(Z`f7BEL5aqNcPn80**t
ztdM`tZ6yAr;_6rQC}GZHdf>PfUL<(F|DtmC*B8zVDi_`wJyS$(E((}#Kys=;Uff36
z<w}gia3fGVJVvVvj)fW*X6&~Mf|wE0B0x)cCAu8VUS6Ke3vG5kz)7Yl-Q=9kvY!gq
zh1J^Ya$Y=QpWft!tI5Tr!+vZzGk5qO734r>C_Qv-c!??S;??=Zd8hW{RF=8JHx>d_
znGez*TvL|VO-au5q<fspE91-KccepW+@Uq;P@za&9JKrGnGG>`S8U9QjoH?`cn}oT
zH)X@0Cax#)hdOfg9ro}>u*T{5!_m8Ky}7pD+co*NU*v-)0jPOlspq5LZv>mx4!oNW
zj;skIn{r_31VA;{kmYh*Gi<RS_}!nF5z>NFb4_w-QlYxxUsZzFw_S_mVCMDo>&`@8
zYF*=6@hfmt5qQdtCKeheJ1o3cAm~z0Eh1H@ek%&Heac5DcXp{MrlPcf8@sou%yUU&
z%`)=A9c0Tl*<%4(sNRzx{weyP=6-?JKcBQGTQ59=_3U$<*3-`Z`J_GBdhr>o_rFl<
zpHJG8t(U0v76Js8hqq|xZVB*$5^z=xLrLpXwGU$vjd)da9*|TrHN#XQw4VI=77gkx
zS~ORZyDA6A@sIaRp9pdIHA?eB&8sFbO>-`ig*X?cXXB<(0iP5l4QdswL5m<*?V3<g
zEaI~;{|;sBaDi|$SZ$yCUPfXtBc&y$-<er``R43jQlF>Rg<snJ_kn&OeE^C^X7%Wo
z-md~*1lGk<P+N)hPB>dzM5^Y)_PM3=Ij*Tv4leTxrz+*JtKDDLf7Sd&^Sb!Pv&eZ-
z_WVC`wgn{D*~2a>hM4Gs@q0^u{rCM-p@8ch{4+RCQdP`(9dY<~G7Ggm5lTJm#)xMk
zW)cxnsbOl#>0<IDzV{(l>zH`mzc8+AT?Y{fk}!BziRy9nbL1*6I#f70rK_`X?G&a?
z1Q#NM)>+#ghGFg@`5!3oPjqmT;jcC=Hf^&_%xl|06s*o%N?-b}3Pw8~#L6!HL2onD
w=A2m>S{~X)&|TI382>Epc5m13P|D5_gP6c~ayL`=AjzPr!}(y#qU750KZ99xn*aa+

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_212491.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_212491.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8900d44e604ca6492651399e967f3f4f1cfaeb17
GIT binary patch
literal 3287
zcmd5;O>7&-6`t8$E|=tzqAaVmegaFiBZF~bMY3QwsH{S^Tqmfl!nKe#LW{+gvyw=W
zTzYnCk?IOq2L>X-2T><62#V&=gHs!b45aln=%FakiwPRFFjWBq$;CG{N-sV2&5}#f
zDS^hf4lpxsX5PM^nfboizeb~B1SM_$e&r8AgudVdzsODD@Q)zuAc6?apv6Xy7qK@M
zvf`qIk%7~m9skotPXt3st1r&+(UL&KJJS8;!eWp}21>{OTaN^c5RtpDEy*N!M_LTG
zqEhal#fX56NXxET!imsxZg!ppFJAr0r5|haNk1t*&1Dhl;a@OM(1x~A(t<CwdxGyb
z*Ei%2O{uNnO9VTC`%McQK_}>lt1#M79N7`p10aPQ<b>8i-3jt`Biv!HGrp!lC+sLh
zcp%>Au|i3Q8hvMLw+7t~q7`|h!&8@oaUxEHM@aAksg;3h_xQ#g)sc9_EqhV;BI@N7
zbMOl}^>ldZa<op56YG|TgVRTRZ|y#Pv@QFRAA_Sj2>3gLQ3)mFdCE6`*;h;mOv>uk
zDhrtQia`^YNqRA5B`}3dQ6j<wJHx_xYA#bftEC8&b*kr<4JKtwoxrNef=eLUXD69x
z6|yWqt((+l0n0WiXxXK_!NNwy$Qn6YvrCCM!#`*EJ*HYVO%X#YYSdg~c%F$y-lF^v
zSs<SxT9$>(r6tR-EiLE8!a|^^S+)+=<)W6isl{-SiMMphBx>1&;S!Te-h#z9b>ti6
z-wWewCSA4ideRtQ(UYsXy<+Cx(3c^yaf>F$Z6li>htYUuQp=e%t3iaenVUG1FKIB{
z9BN4u!k(O%oO+9|umR0iUs@yDL|(TnZPlPTBSXIjQ2=is>vL#a^tFPbJzLkx*Q%p+
zb=bYUA3w4a+74Amt3Rv9Uv=NviyW=oEMIWvp2hpCYAt>erlPURK>3%|_iE8G_ec9m
zcq>>AR^;l!y}l>P8&8!tYs#CS9eFhPaImgSyR%=0)vdAeSf#geeY?MU{Ym(^ducxs
zuk=-{?SXn^$er6$LYs4C#hrcjqGd_`;O*OQZ@yc(zO%5sP#yj4*oR|J2T#`qPuKfj
z-<|rK^!-D~0nuUJd>0xfQ^PLMT(XH}zKRs69%ncnXE-R`VhwNIYkUgYKz0+efZ8rh
z;k1z?fTb?j{{?3baYKUDE~sz$3D^<edpE*uBbam3I@okt`1WzMAv=;Iug*d8y>_o}
zjR=nP5h9`^e}sM``MU38M_j@iLA%e_bAkgP0<ZBr`u*8<Pg>uC7wpJ@*=DvFzDe`#
z{zmD(AASTkIL=cDVYDvHUs&%QF^WmUAl68e=P!6102t@{pHNviY3A(Ia=|QEEC9Go
zt^j1SdAp=#QmY1Fc|`{lt3HaY)Vjgs1~^zx&M4Yi-dr=NW-e*K0@+lKh2PaP1>-WM
zCiPIj<ObZCbSq`7C6x9(qQ@ZyhOg1@Ku=%ejYk5~GSGv?FO&~sI?6TGPPoytFf|0#
z`V<-$!R_8s%j(^jJG-w$pDM>{%CTy1T^Vv`_af@n`SSVObMCBrbFc5{&dl~qz3+s3
zbw76WY3yVzcJg;O?)C4!UQ5h;j_a>ptj8|7SN4L+=K1%3y&pSPoviBB8;?gOc2DgN
zJRbN#JvRMVnch>Qn^W%GzVu3!)T9#}Toar6)=GJ$a`WzLb)uTQcm7|Z5ReaKq(-;S
zmCsd1cTR1ey8FY&(jYwnF(;w6O6$q}lLwy^0*JH#)cx5d@VC(Mymf&QJXX!w4Qz8Z
z@`}@bumyfCNnjf0|A#mErM!t9-bDXu0$2gAB={}7VS-;Gw?K!tK+Bs9zZHlm-@=>l
zQn>{?yaij{6h{GXA@0pV0K)M6bH4S@`7LHrvOsirZe?QJN+khR#Csbfwqe;?Qnw6k
z;yLG1)-f~LIXK%nm`X_W6xR;Gb4+qH3bKcWM2H2cVHGmA#f0Jn6G~8vlh8vgo`oK2
zaSHk=i<730u8{`3;$Ao%FB*LZl+Ho5{tS(ap2gzsm9JG4?%5hD4^^&L@yBDI1s+8o
zMxTUc+>2j^`YXSxhX&k>&t5t1UfH}>lLr5Pv=0=d_PO&O@)A*R1L<i<i}f_v>`Vs!
zZ3^&5z!YDi-r<Sql+8jwla_51^FF677&*(NEa3eBdAslJ7K=0vKwCC5<P+q1YwWHv
zoi#}zW6aQ>f>#c03uqc0h#2E9kotEN{RbKbt`L+D25%1@2yy(@UgGqp!=DU)C4zh?
zB0=?L55`nHRJpu!b^Gc80`cR5*X{N{8h$u@$Y%~;Lpb`CdItCXlVH?yydE359q~f>
E52Bd3F#rGn

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_254823.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_254823.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8018d85b1098f095b9e4ac1811b37f21cd2a7fcc
GIT binary patch
literal 3485
zcmd5;U2Gd!6~1>oGamoOX%dpO2`z-}#_YCHerN!dbd%<%yW0ezE#2L))iCRsBu;FP
zduN=#9ZQp{QseDI90?S!giw)?U}+_agv7q^01v#tLoHXVbqP|X_9bs&vq*>+ICt!E
zW<wC$H?DQ>Irr!M+;e@tIe&~qf(Y91Z-24yeF>qbY~nV)&K&$0m>r}d6{pZ_jpAAC
z%(=90md8lLi;f;wv_@4<;}^r9U1PI3PW9d9@7FhG{VK1a#n^wIQw1$B$E)IPem2;!
z?!S#@LmbjV4f*gIj!Sz?e1`hRu73OS>+(!O^r#bn_d!2+h}lI<7;9~jbGbvR;`{ae
zyl5dyw77MUUxx#EzlA?Dmpq!>U>z!ga9P6rx`lke3Ru1+nB{{WDX*7xNlTc=W<$#&
zJj&7bfNN+Cd2}7~0G8hhFwd=^>U+T7XEA`54_okKx5|6vk9jC7)QCky6+E`0HBH{p
zida0e<w~rFKz|f0MIB2`9_eGA+LG#?Hd(<3qU$L}YbfrYAuNb-Oa;|k%WCtk)i_7_
zv|=n#K{ppPQeWS{6vu?cH6EaxnWDig(dUVhmXj(K6{2M3H7cxYL^r5^E~P8x-~i=;
zs?=xX(v&xD5|avssS_<8qxda~-=<;1BuQ11S7oBFP&`9@TGk*eoK%DrraHi=VJaXT
zVXU4r>(fv|Ps#e+oS~V9;~4cRi3Al_<z*#hP~WmbC{GMir4kcjiw29(nIr9=*ZNj;
zvSehHgx0s9B$gC&LC>61=CzF3XOKjnsim`hFzZVV$QhlaWpLWmGyUhYYced?r*cAv
zn+$wy=<5T6utPg#_xRk3D)(m<!;qIWlF?G+40z#(Zu|}g8+|IFXl(07;YO*y66v-l
ztFh+dWa*u9YrGtb+pktz+e+fSu5!n@a_c#J`q_!ro%nXVG+J7zoOscGy&C#Lskv~;
z9)A`LZ}k>>i&MpK{B-PRul?k;$H6}P@@}MQ>&?QO#kcRBD!0A-aOflBapW@C2*!#R
z3Tz*w&KAxVTkgJOU#^CtKRB_|zTIAGDH$JhR+@Xtp&onuNmE;iFXZhjyS#Yk%Epz=
z8>R1+BfUTG{iyZN{Kx@Z0#Uq5+JGj!na^^}!G}kX`F8?4$U=(^j9^l=<^oQh?R(|x
z`*{x5kHvwdafHZe*k#c?(o`mOj5d|)gp-X-|1UP*0m=6Rd7l|@)gA}LRwFC(JXnjk
zXAf!PZi4EwgmuuG7tJPj-xAGcmtQ>La);FNxmn-v*KheOzjJTVY;{lG!kd9Ptn#;|
zykxe!tCqxW3Rug0W9*Tp3a)n0i7h|iLmf9U$Q&0_i*qI3VED1e!n^k`Xi0=HN_gLv
z@h#8~7<~Q^@1O#n!ytucK12*)rYEkAQao)i6=!U68VHpxrj+!%sxq?vMQ`$)znIb!
zki8?o)b_s$rw#Vz|FBW1`2(JO3HUmiIq(sW&|pH(n92E^o-+V;7L=?;`HY$bBw9{t
zD^vg=N-WSI<hHpcr;<w=4QnYa4M{H>$#sqT(#Z@JYpG6~GTN#sXZ0100OZI6G<aP}
z<+KSxbmF8l6>Cry50Wo4Usx`Xm)XD`iQ+ZV&uCzJ^euVvyKhX4*HDh12mB*(*fLn0
z8p!lYEg)fU7|1u_L>D{yCm7)7RVlC)E`;w!?a^vDvNcthvL~v3>CW=TauMHJXKRy%
z$>Koq=FZCYN{MX0R|)rQ;%X?oHC!0p7`I35o4ZovW2vJob(ESb(kXlNNlWX_$o5F3
zrN_QnjkT4!%CQ&hS9hb$#rTh|f80G-?jC$NTIs$}i4NOSU~F^v)_c3rjz?0*(@>W^
zzRP!))H2@#u5I=+|D=LcY`z-;wkn0HvG%`*L_yq-A@J=&;X?6+yWe`mcR0_NfJ-$R
z`yV>U@q73m?Vu#e|Ig||h2qEaeLn^-;7eU!&118H7}jB3!dZYBs&EmEd%mjdA9|#z
z;&WN^d8{=u8W02WQuTihYgon4aW}zZt&!nSb3xUmN}t0T_gr`Ld#w3gbjV9kcOW&u
ztXT-MJ~*?-Lchnp2$WCcR0S|VRJG+~LL;n<q#;u?OgW(#n%qyma%5$|yFKWg48?iU
z$4(1Sfv6e6iY+Hmpi1!*&B&!pgL13=lv{(oIsg><>L5_)t3yDC42JQI)T?D)%yGx_
z1t&9bXbigX2N-PhBpS1)J`JN_)7GiNsp5A^_}<xH3%`l{D)KlmVvjuwv=!g21Ul`p
zC*7y*sm<v!fAat5^uC0`E%uC)ckzf5Kr#r|qD?itJD-AbE(aA5m0XTEPv=`qnlu2&
zYM9z;)`h-nTE@@`6`ZoqiM|sp8mc{jJg=uz@*?Q3;dCAA)4G~VX(Qx1Y_P9|A;Ylm
z!x%qB;lH5BUs2b-h&bua$&HiyTr<8@jlcBEt`ECD@d1C}LtNNd-S2J3oyCcrtJ_!i
h5wQ1i2aFuNf)S2<5<ZVx{-$Eobh;8fvk`I}_&2D4=WYN1

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_318959.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_318959.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b1c618f1c1d2312960c0c16192787c4fccb7becd
GIT binary patch
literal 3477
zcmd5;OKcm*8J;1R%O#gfQI-@*wiGE<{a{*KkmTA4;L4V*hl5xu+Bh#Y#)9FjBuXS#
zo?Ys}EP=IQz+#O+6wpFU(SwdjWuPw5M{Y%nB0cmHf<aA8RltCK(V>76rD)Mh`wz*b
z*RG1jw+=A-|1<MHXZHVQ{-`KH1ntG&{B&+YLg*nMIL%jQ_P2o9L<A9>MAJ2jr*U=c
zNqMIQj5Iu7wd1JPDDh~*eCWwJKAQ0m?=4}wzA)`45)m{sANfy7;?n{%0ugWdrh^Ut
z{#$5T_8?7eSO~4+XkeGCPci?+E8n^FsyY=HUFLWyUg-Nj#yk}hzO^>*ak$5n;O+W)
zPPC9ETAnQEXF(w6x9}5V$z@4+Y{B6OwtU-l54nI9u)GT}$^~6o?kMYOmfs3+Z&r|a
z?s~U*+|cF&HR}GFjln_N-^fCC`8(h^EZLHIh7I`;5nLMKhLZ+kg)D(b=xAhR$Vve_
z3b&IByR;8DR7<Mo7q)_TeNKKDt)i$nMfrBkI-a5)CZuA<0`uwSoJQ;Od*`E=@*|A~
zn8!@A;3Cy$X)L8C2oqy8mY&s^kkn%YR(0l|0oEKEWL_haVuEp<n#^aII@O|048O(j
z+bm?5G(j|VMWy;O!&A(wEgF<>JQHDt+YNAPm@!aRIICyO`cRJRNmZYjF*MVtM#aPx
zbt#rKn0F~gnLrJbFp10aNuvp@_CDGEd9{C8rwhhnEUxv>#o`Mwb52j6jLm9kv)`cc
zep5>=_QR+@IjE*}no=QLQ%?_^T3l6Ox;|9nI^-}k@Y2iQdKp$&r|O8$EE9ELF=iO*
zf=1I?l0FYX_@NuWf{%^9lu$Ubel35kI8au)?eR*axiDUQr_>rPMWXgAmDaYRxYbqa
zI9X~vX-_^n)Vdknh!#hR%jHAI?N=-EbH(QTd3*Gc(zO0&{>{SMTSrQ5-@JGFW8*XB
z(tTyTq>TTb{vrF@Y+3o9J-!nRtsl!DD?C>`w$W1#zF=Rf$l)Iz+HBuwFSZno4?4@u
zeI>ci9(~Z%Ruu9%`|^$;-oAX}^4hiH_e;u&4^MpD`X^y{A0kH#uh3SYad#O5j@62t
zK^fl;Y$6NIHwvC>)tZAIIlk`JudnAkFn?fCFN`8YdtjAs;Zu!ptpltPPbWw=z~I05
zd<Qgt5XgDWMzJ4M*jA(Pasqf$o(h5csZZs6#B2GoU^OS2{Lia4OEjAue*TcdJ*Jk|
zDeOkPe#>k5t9i?2n<GgCNA4zG3(R2RyCvl$v)x&@B%U)sD36k}Pc<Ss`d}Sf{=5F|
zIvirqIcRq+kE8J#ib_+ve4}^&1ucOPMp=2P*VOgiWQ@*garcpPz6JU|zomYJH&GtX
zU@(EFK0+L0CdaOhFg$5+d%ZU82EwFs$yn-L5*yAw?=GZM=aPCH3V9fq+WHBQHu$gb
z4;vMmKM-gS@KqcGnBpK3Rah{tr_ID{M$Z@kK69}}K&UiH03IzRv}NW4IEv4)Ak?|J
zswNW)8VhMjEd>Ce8i}mNys1Q*iM6t4O=)e#R2TJSjRNqfgDm()ESb^9DAj4Tw3%1~
zv}lm_@>qC@&=>iKZvw-sw4c+!<j7m<`0KBYjn=SEm<1H1$6?9f`_urb3$+aixwnD7
z1QLh2XbC=$c|{7Whw`C2VSA(!Qr0K(6ZTleFWp|cu~fh}vwUtmKVBFtT;E*YST53y
z_sXHZHC&NH>u2+4Z;aX__Vpb}xi58;q>f^9Svq2mJZNd%9Nri%xAfUpDv`EgS1EGT
zeq|@zT!{YUjr-k0rS747BjxTh<?va10-UX#z4_iwxTDxz4j=ziI{r}ZvPXA>?jk7(
zeGuQ;01r~iONHh;GO!g%u0-1ZCW}6CFM=SzGx;-xqj$djsnAh9!#HHtX#CIQhq?bd
z_?b3Q0_FbaGlIZ7$8|*?fF*Z@?fPsEn+-Iv9zQ@l7T^i-odd_NOO^koPc<SwlQ*x+
zTcg?mO`uYV|0{UI1V2M=K9@J2Q^D}Kg69>HzJfQ;Gv(%YdGj~CN$~7IB*48{2ueRV
zwad4Dm){mlh-XL)fIuYLQX;M~A2C;<L}gPmOf?=eG<AS}jSISF2Hk@p_uzC?peMPs
z58fgqP5GOvS}*Wk@l(ynBu#^PRtA`775d5`Q0OZ|K%uXk2721yH$bBTYXumohU2=_
z=_CkUfNp#O9~(UgN9>6&Lnzp^ek6aS@ZBQbI`#|Sua%!Gp9O~Pi;n_rg?Gz=PW$46
z?jCz$ZL%aB{{NBQlTfI|o~l+}6wki@*I#b^{gZpcQKh<<bO17BO*I5Om4r852Hr<Z
zayZJXhk54{CJO-88m6|g=z!r>Ep6zO`Kk}W>OoXDj>)yNP-pcdp+`Z#hTL`ZPw6C+
z)Q0Knu)yyRLxs<t7i0Voh5n3`zo4!?5qYHBhi@F-^EBb}mFPEq*7Z@>7hd4^y~q=)
u&VK&&cHCJQ+q|-IWe)+nmD%TH{{lu>`66@*w|q`8YU(M6dvD0q0R9aj5b7}i

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_336206.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_336206.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f5dda660cc5a06f78bbf03402f3dbfafc49cccf7
GIT binary patch
literal 3591
zcmd5;O>7&-6`olxcbET?71cKF)U+HZU|mbr4{RBg1<01;w2>J&R@+pU1;brYq)0A3
zyNoGy39M5C7U6@albBO-=pm^Lv;k7YJr(Gohvs62Ml4KKz<_npO}2a}dTHM*$<?}L
z(fHN@X6DVz+xNbi+4s%+Iu!CFDAk_dEWRrt^pp)cMQjWE4?x&J3Q}+m&9{0ykL@v+
z_ssJcsW@xf>3rJi6;9=|!I$UQXn|8aclgcr!n~;X6kbKyp8wQTysA$Ty00w=ig?F6
z?{{!XchG!*Lu$aW99+h6|1L9|pyH+3cQ3yqCsKmT4U;`k_n%|7MFZMa$#Na(pjYr_
zd%YsKH2DLKj-+7IyV<r-5lzwbEWxNEnaC7OZpDkx3aFYQYb!pNEjPBdG1F&C3U}YL
z$#6o+`dYoaHJm}WYj9BeU7osJi|IH044Z=Q^A7re%XZjt;|SSaM|1=;VDfBdj^7|y
z4l>J?kcqpTK-h)rkYmOX%&-~iwrdk-UvrckA^SZ?bc7BPQ@Zc%oFhidC@v%jyQXwU
zGtN;ypVXJAS2Gq>633KJmNR-B6F`sRLCP69>Ms&4O_F&zqfjA9l7+NN`J9$iU{#~y
z0*J=gDD~*2JhNsjQZLbO5`%hmLnEMTEEiSkS95A!Ef}(~9FI`^KE=PFLERu3MU~4k
z(QZ+kpdPiT6L#@bgc)#HrhH1v={6iHl;xs9bc)N=^I?)up6G@`@iG;b?FBsoU&dZ8
z|Ck%TrI97Qm`tg|i^<dy;L{3cl4*c4tdrERq2`OjFdEK{$_0(&Wq@R8g^{7+vJBJh
zp`6kH=h)b}(X;1Zg&vhV>I=6Nd8C-sb$Ll81vN(o00g5F{V&j1=!JwLy=(buzCPUy
zf8V;g9SE&ms9vaDuZzt<%$nH>L~19i6V}X=P`GxuKH2Dfvk`jpvo{){A?vMe$-gF6
z#hOr``>gMgbmp;iwjrJU^3Ye&FQQFp(wg4!2iFFxgSFn;_4WSx^+)~_)@A15eD(a=
z#p=a+UtRzBXftpM{7AmlnW|(>clE;yci+DK_Ug}S*Ei<Y=jtav8T@$garAT}db-*F
z!{3d6%TMgXZV)-nnj_Fqfv84_6jJT5XR8PpwM8!+%x)kPW$o#gn+gZ>?cjE=0Eu+f
zSMX6#a{`oEWk2V?l>@R;xTW&|vIq1!jPBCyaAk$r=|U|Bb}F9#qT%U;SA_?SfXjGW
zbbNRf-t?}(Spb2CI(nvHu>aI9-QEDxvG42|2-OsqW?)wVqp$O=;_cx02pj#K*=}@T
z9#E5H@(UO!m>sEIOdk`0sDZ4zo~wffFkn;MY*RLdFS^~L$#qcOV05$lPbj<W8L^2c
zgAhh5gT`V;kF~-jrf8}jD`-YcFBOX#F=C0>)Wz7j@pmr8L%<-5N#G8Vs4YQg5eD_A
zw1SaIm$Z^jc|EhD(qM;P?2#v*DNvym$uv?>%Z6OkZmC4p7UWSHe6Ivw=hZ8OXoPx!
zq*9B(Px+#;Eax(Si-mC9@A}#OW!VNG0}&pEMT)PHGpr9^n|@z@>!&xa%*Z!>Jb%UJ
zE^>mc@M)knon;9JghWoVm7tqD$OKG9q3S!(SZJ&F(8l5Q!`4qAUe|n8Uu~e4+(@sd
z>mRHyHKhS-dP|h<mT#A9+^@{q&2PjbTfxxUY<2ctVimJbgsQMg?)gElJ-B(#2QlCG
z+Q!uSRI~4tHM`Xxt>+s3Kd=(p;ojQNuLmCwOf&{29`rT`e$)(4T35lt>iLg;xgCx^
zJa)Mmo_Q$E>`0-<(vgOAq~6<<j)C!DXm#A0+2&ubD-He><CYQTP^wC`-g^NcH_w(7
zc_H#%Vb6~MA!EFG;Jb%>jGTgvrl2~-$x8kNKgtHmpvwQuOcY3|TrV~6*m4AT)7!HZ
zY&b+<9^^Ef2}GoLC*cd%d+esOwk<_?C2t;=Hz#<2Du65$@jH0K3VwyXd0pNdLZ}Fk
zbs$Ch4&Jy|+MDR|CUycH@;o39#mBsv2*Tc<*kwn*%bo*xze`FI@(e*yKg^_5>Q(G?
zAYiDvA*YhMDv#{4L#M8pQTJfXJs6MkWRz)pArDasgt4j}LUEtX5~ZA>Q?5Khxn-#3
zQRtzT$DoH=9*2HhXSDAGWh*9oY&fnrog_eM3ab8RXe{(3++$sR5k&sT+Og^}_`&g~
zgI{{T3VjiJ<eRcC?fCj@A2fYOtxHc{KVe;6z1HBP|3BJ$5(@TN2|M!QIQ?w#>FV$Q
zzB3gM*=I?HVTUx*V#}c%<aZ@VkEqm<h<%TqY{sBI;9cEN%SB>yBo*e=g3dV9P6F+V
zun&#~fU)5&<g}JkK1a6W)<H{?c}*$h)G6|F@X8(r9UcX==fN01MZv$K(BIJUJppmj
z-RSM;9v8tEw&JIMd;Ig`&pjaTdk`12XP>>%k5AUFY|O6D?jaCAE!o`z?;nGI2=23)
Z{YivF&x1p_@0o&8<U}(ZyB)Bh{0p;t^W^{l

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_357644.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_357644.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9b12e150e299f213c2839efe7e66657df46897b3
GIT binary patch
literal 3540
zcmd5;Uu+vm8J}6N*K2#%`O~It(rc6Ij<goEQPMy_m+M{H^bcwp6j5;{aI*Hio5YUo
zO=mZa6V_-`Dm4}ladZzcLP$Y6=?;>Io&>t^#2rH10}s@=;-Vo)k(!shr58Ym7x-rF
z-RvDkT;CY&%zX3B%=i6fX20Le?`1iHApPO~&!@5?LQh%4O`*DQunEE{Qjv-?XuMYA
zaqP6YY+#(nNW*EzjytthtDMHCrBCZvYl2e)5BT+Z$9PB$tGtHN&Hp)44QgRkXxuj;
zsG$eJ@rZ{@e1OKI9MYnmWoaJABYVv3C=Fd6`Nox-iP5Csa}xwP0Qulu%$8_ESxafo
zl@4nauh;tvf^Q^$IKq`wYz5cr778H?S%SqafUgA@P!O$<6_|$JLfB`;kE(9Qf{|>7
z6;`>8z&gVTDIKoW{?hasjgG-X9r5{Va4c5DiZGNa-rzm-QJ?LY=f)G#EuQEJR@CAd
zZqKg-mL+DnAo~!sdJ{as!v3AAuU@vo8$oyV7|o-&FiP0wPP+5r9Obi$F-?QIIi-;}
zro56*8F5V5`NkuZGcz<YL-a|aWD_Zs3JOtjlN#kSx}rj_PD2wQniu<Mz?jW4YvvRU
z65}p0Y0xlrqQzqr-=X;1R5DDGQnf@rLG(F_M`=KtF$g;xDu9NWk0$j@LZ6s0G}E9m
zQyQj1%*2dI97Gi7Y2cnhC{GMirFh<8JKOcC^v~Npb2^zeW|XAXGo>V_0g;|NuS{w=
zv&SIG9#hNC^gyd8)0fEUB%1(Ork?A)Ff*S3b-kHL>VWm)mj}Mm-w!>sJ>d?Ym{SwI
zGm2p(rZtk&GNcnQu#h(%L1Cj^xoP>0;v41Os(i}6w%vMkHNFxr50&Stt!M3<J4f5f
z!rBX!6Xz>O&)c`QqQ}ZD#aHd&T`{s8Duzn(TC~#q#YZn~CZC9xKNhc6#H+u3^P}{K
z>8dzp4{b-J<?dp4siicw(pDaO66v(BY)9qgf#SgOE5%pJN6N;J+N;qQ?cpskyfj=C
z?V(*>cz9#+#?n~nSouqpmhOt&{qD(%-2X_~RR6?ZIRMOvbg<$W6mS%pIZJX$e;5P5
z)q?#rXjhSi(q6bjPdyz5xynrsfVpNER}VdR469v^DKI+?D4@WB-epkVM4*O-<5k?w
ztk&`VH>=-;{z9O@gN+6>;9&}yQP-s!u!0LP%amPBx<MFQyc?_@0>R=fVR{&Lpw;w(
zT;(nP$4CuY0+hl}g6^#Q*gWFdKk7<{wH2`V3AQ8ba6Xejd*U-HXl{hukOu+{OyGiO
zo^(f9BHJsVRiM^}XDGV3U=2Vi8{zdjy<(Wt=u|AuodMoL-vrJW-TN1$J@$vB5W;97
zFxqu);ds1D%O^EWHM+7&zN>zvbe*F(4kQ#*&G{LP3aWN5mDC)Lit~hR2WevkTfD;*
zKqf+sMrb6d=gidPtUhZ1(@ZHapTC#V=BT7)v@8UB!bmM>G>}c@s89=W+LY7sz$W^f
zMu27#eKhhdB{QpCB}6AQ2yB%E@&bA==Seqnd6pF{yyIbCh{SY~noQ-COrqu%-*QmW
zFmvp9b+D3CFp=_;KzauI=RB4or&)*OClmq!gN{Qs{tktWwnE~={9?Yu{lF^S{bT6F
zmLxBa6i0qIx`cPyj;+4F^13|=5xy)Gg(XtzT^(2%DEF<rTopU*p{=OI_+W9^9<uN5
zG`FnAR$|rWF8k}-v6j*o%3rIrzV!CQ$K8XK?!nEmYWJ(v*lYH6aJV#Z|9ji96XlEL
zyXEBLGhf|2z8U_Y<#GF!YHawi2m~cBM~l(YSQ(eDt(|%2>`%`=I`jUy_s%^LU$%#K
zBzdXd9^U3pmDLLWB4A@5K)thar>wm7ovlc8OKRF`KK?g36cqMbQ8?m&|9(|G?Lf9~
zkS<ty60(=rzsDHl;5YC$t-|kA_@56A6<$cbi?;#4z!hEB7O?5@jCJ@#;Vg(ZH8=>4
zeV1;XUp#CesKRr33;4VRyr=<Q0B@ns;SH<!Io1~RdGpw&Aiy&Lsp9AG#y!{CLOyRH
zZ*3wx#E=?h-Yit(2DbHk>^`A<a#mI1TrI{}w9%-k8D=7>7+RutkL|Z#)8}to^f&r}
zDtg)IAiPb~9ASLz#8W&>Lqs!XGw_(;^1YOshn(+&8gl+3)R6Q2Q1>?q&}IjY@75<b
z!SZX6jo(3Gqn%i@ef_TziZm^sES_Y6vDW>I;QR7>@{{l-`|@tMt@LI!+-_gqIn`-j
zU%FM{JN|!0?~6z}VvjmO7sr#&rk*bS@*lgG;<B@s<N~aaHq~hJLI&P^v+#hTqAL;S
z2m|SqNyEUyhN<Oeh{KdrxUJ<3MyJlh&^ZWa<7l*Y7Kuqcqy7vzj%!RP4rX<AHltl4
zx4|pBIE)Mw`vHvcQzZQv$$vpF><fq!A9gHu>~j(x#vk;3H2C4*Cy2=h0mMl)^|R9*
wST0>%9a$OKM<A}vI@M<I*V3<~1Ex8+h7p!OkuKmP&s2<>I;*j+#i)bk-{4g3m;e9(

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_392963.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_392963.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e7dcc4cbc5a5cc8a346fdbb3a16337ef9f4bdf14
GIT binary patch
literal 3577
zcmd5<O>7&-6`t8${&PuLvRdmWF<r&3*;H2aQ~wmU151i6BnlhDfg33T77TYK@pq}&
zWkjh<fHsUqtPf;PrV+H&F|Bm4fgnEQQnW=cy@;h-8&ef95MO*#q7(sg>YF8ZwN(T(
zzICXXdGF2advAW;H&1^RML&Y_t6%<p@i$(CK4*+o+-+j_Qy}gj8Ob<<W?Ma;#U{^X
z`B?!Y1*c3s)~Bsr<`f|n{BIfK<~f<aC2X_@W<9c?pj5}V=gBU`C%X?Gn|I5eTf(g0
z_R4z;%?3E61Z=&*6&&?FV`^j6Gd}&Zi8rKJ!des)yP)z=ckf}gKpomvNpTjn*UNaL
zJzjD<W(s>VEK0_PYoo29<S~%pHn>%=wF(mq4{J+a!(;Gim{amObUA%%D>J-?Pv$oH
z4dy45l&{r0Tis?3It1HmzX3nyM=9X2dBE`)0U2)!_6mXy{UO_wO{5Olq)iw>LtyK)
zZHr)AG;N0r4Ew?F+mEorqfT3mO&DP#WcW5+)-GVQf}-viVVk^Q&5CkV$i}rab*cKI
zLZX-o@nTYoV#3Zj>ZhEZq5eEk7f3uSC1vW4lXz}Hp+ZKD%P^`^&peR&=m_PtLY8UM
z7paSAOGKwGO;?E$?V$J_if3q0(@9cRq@qOBWr|~zSMnNRheUZM5fW-fqwb=V*NJ92
zKs`n2y^NYjQ?3XG-j5S15KWh<XQeH7ub8tn773Ak<(s#MmQ|A0^6`W+v=~pM!8J8E
z7++9w`jAEvL%Nd94*@rn8If`-$x7g#uI7eM<yRySw^=Eng43htM$Vlcg%R2#S<~m2
zWobAc*EA`ukeres$G{5@RP8fp%IK?36cDR}mBBi0`g_Y0+rXWxoU2`}dzyhrdGd)E
zs&&<j#-V|RIIu1^#2=L}KMsUz$0}#blTSk()rHDJZGL_1W9?yR^ik+^BXs%`@?iD;
zYBMxmzVg`DQ9IM{^_IuC{lV&q%86QM{n$f)f6LC9%9-kg%7uDYUAx=U3=Dv^P<LIZ
z<lsZo?9zwdue@6yYluh7m$wD?2U9nu)~?rnzCQL3;p8s3k0>sZ@3G!Z6um%l31@(_
zkTPK)0#YXo80a7%ur9TX(<fnjJg*~}voPl-hHuz)+gGe{tpmo{uI?+=cnKYBbB;j;
zSK@U${0|CsV=v$YU9?QdJm?Ht++J_lTm{{_9mJ`F!jHGsY=eT!;0;%L5+Ty5cUwAT
z!QekavdeHm>;ARN`syau;caP^6g!4}CDpS}04(@?<l9n9<4+JqdY?6JaPyd{0H_t<
zyB93^UN3vBFTrns=S}ZM8*DLq&){dR41<nqXaEf(4KH&T&48trtjN!xWq46y&)DTz
zJvluRVSyHD#Y==JONAs+w8+TdWF(o(7xaj(<TRBe5hz$ad|8RZ%~K+BG7I9Qnv29P
ztiBk@#L0p}BKl%H7s&!%WeeFzJd;tE6*+Q};;4ynfMM){M#GfPC^^8Q#duz!Vp4;6
z&gsd8f?Ck1-$A<otP+dV51^p0NSS0>p?o%(qd_I3fO%cglB)`Jw=jZ+b4pQ{@?eul
z>bx{U{nz7}g7O+6Du7g?Ajhd&R^Cr06cZJwy9ItxHyHr0T7iY%B<vngykfelvF&YP
z7>O`>(1|qUEE|QYeF04wZ3jYYOV#Dd^6m5W;lBm?w}h#!7pI!g2KpZdg4I_muRa7S
zC|0K{)3;-5m<a(DZcLUhm6x`?;v?^ohWAMQP}AF2zVtM7sCK+Q{M(CnFE;yLZgjr9
zdHvDgL}PH`50{#Qmz$w002?0f+L@cb*bW`p>KnR;Ki0NJ-rBnQ&emHqTQjp;J?}O{
zb6eiIr@m0Nx6=E_*9*`D3eVm>`*+_<+umdA!|N|KygvkoT7T84%2e&@?Key={P=L+
zzeSJF|22>N$9FnWP%KY<-L*%5qp?T#Plu0B^8BB9*QDr40B;wzbL_Nt{|NcU9h5|+
z|CyP{kWe{Z=>u{Sc+cC?64q@1GWK#B&fp9P-Sc4B@fNe2zOTsc=d#8-tl2P95?G+h
zp6_4{%lJ9g=5koG;iu$=j04Hu?_iC4uC;j_)@*=*+|CQue9W4Gu0i4vd&ai@8G}GF
z3Qd$FW6)8Ttgk>A2XsZ#r9@m)q+xP`4LBqtPG;1}j70_VV^a-eF>;PDyf@=2>Z2aO
zp+ZL2Ak`SA+{!RvPzl5c2u7iYS{#FZOk?kfoociqwZrtskr$BHVbTOt?Jv-j(UVX|
z`N~&8<PTT-Dt(Xv;Pn%qxE_f2#fQF&<?*M!?%I1zUr%}b$qPrzSJvKa2)+M5vv<5G
z*j0{^AHY(gqPc_Q6`*Oj1%{_GkP{XlucBUyBJAWSpGxY~2N<jAN-<B`Ncgr1@ziA|
zj^_58yF~-76Ob0vjQl%fT5IjD_k32B3mN4ixdvL<e-v68njIcv{5cB#6N&#q{X1^N
zc|YjA(YwQS<LFKhLH;yXnfp=%ZkI<~uqA)xFcxdC-I@MydItfyUNF0R-4FWj_wO>v
a?oSaGzYLzjU0=u;g^xBvksATing0M|Jo-`q

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_403404.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_403404.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0290e0a6b73b7af1cd358892bcc0227f28c126c0
GIT binary patch
literal 3782
zcmd5;O>7&-6`mpYkN^6$E!mD~CzeaNu}n#I5<qbv%Z`oIQsKr)TOsL!;jSc7{LAdp
zB86o_y9O-A2T~`|2-2v%)UDG)&;aqV?V&}{iwFi4F?9h0@x_-yjnYd`eY51Q)-HqC
zw+=8fZ)V@T@6DT;Z{J@70WX5`yOrN8{>X#Smuz4at|RRH9E5eGAO)w;T)W3}*c`jk
z?l}%46(>zQ*3x#bxKu9be{_zG=3R>WI(Mh@VNO&y6(xKAS5M(p&pf9H*SR^bjV@kC
zb3PYRefD~P5l5tlZ22q|&s_Y$^!Mf2xZp6yWH;2Ee`2-~9olwDx-4n8SMZ(A_mbey
zw1Tm#2;ngJI~@xp(GU&y5{yccfegWLt?&q~fOg4a;77(@hgGMS9m|Ht5ZO9IQe2<7
z?=ZiiB;jx#FS<R^E%^2>d=9)Whhg{(AM@4L_dDzcZ3tUP_S&K?7=D9eKHD||U^T$3
zmVyrSK6`;J7~alqgWYy$;N*a<Y75CdwrC3$vLSuKSuw+?h$8$fVMnxJX+~U>OUJY&
z%4hXOl|(QBFHyu#U3!Xob0oV!Vre;{P$5QQnFW<{sccMvuURV2gQ$;>QMZ;)Gb{Qc
z<%#w#(J8O#SpvFxF{e_mno`qhMwj(sBt-F#DgFudYdT3Ns$7sscA4T?>Q-|aVTVfv
zm|=iiJe$%?Zzx}ob2_1X(d=-6y063t<%p&$6c@D+EDJwc{&RVBIZKwbTr94RF2>?Z
z;9NHId~5;y7}ZF8R9DlvQ5cP;#^g+vq-F3&&t{@0azz=YJ3~311t%v?j!&GNfG>1N
zw$$gB6*-!VX_~yGl8l-nhrtOEs`eLX%IHBLRDHYhc0Jk*94x<j&ljk^RC%d(sV+8s
z;quv*FH}2Rd9i$UTR?$eO{gDe^c-#YkCxB1`~m0iYXNzDRk0%0_&T@d-<Y_qeIbo+
zNv9gpsn5vgE1#}3r8DKJdtQHaq%u<LtzB9hy!m{2ngPC0d7=7p<>h*RUAr~Z^gU~$
zdAzG<D-x{Wgc}#GURZsjcDeFaJ^Jy)t%(i%E8!QyRyf)SN1OY{?hgEoJG}#&LF52y
z_CgbP5`+X3CXLi#b{!cgX%h*2=@g5V6uk5uFfsyKP8%Jqx4=%xRdSa&_|7iiW5sY8
zZuWc(&L$W>^Sy6DbeV{I754(}j`~adTfvE3;xj&-ouOG2&U!@GfY`b{M{93Dj6Q2s
zH-0w+%Th_y*=03LH-?A(S!632LbBh|-R*5mkHQ<C6^LcYYe<H7=`2K-x922-Go+<q
zxQ>C>kRlk|he#0(=|l99{hzsp^+C%nV0AeaMH&KydCXd%Y!S5BC3vhTlI1gCVjvvP
zoequTC%Y5<hWJfq4)N#^{_E%)w7T9W%cIv(#5?<tnRv+d_mBm5W$=xRme1v~L|2t?
zB9qJOVI`4HAcWD1|5Y`n=ZVT@!YiS$T8OKvqJ>kSpodNB1d3z^fg;_Y1XQ;e1Crye
zB-CZ<eKVHItLF&G66%d-GkRhnpUrEO2Re)|0u!cldQna#mQ*UV35SL<YC)HC*=3c;
z*?D=4`YpQD5-X}nD^zH+WyH7p5-C1I@eE<qPlbYPqDuwfD~3r9!E~EV1Md`dRnCEN
zW|s1>ag}K7x;hAxgqaz?libLQFts15HU&W|qn0S$$Y0I>Y`J#$n$ha(Uq7~XtRk-B
z)#z%h)!VneXKha%*Qajr^>>@ShbuzM<E;)>25;`IO?_|x^lQg!vGs+ug|*|3RTbeu
zaNp+8$!0LRDMjyx2Dd`tMkw429VuV9Ck3{oeGO?}eP2^LQl5Gc9M}pz*9bnhaj6+R
zRzBYvIIuMkX$(Y~1INoVtw3Kb-3UAj1S$q=gV)|~_3x|CH2Nc};(edLCVnuv$xYWM
zZ{rQ^_UPSXcZW8IrkmXK>f{6NV7>71d$-=Z9cvsqx%tdkgBx#2JuS%tZ8cO0)p1iA
zHiy1e&)$CrL|)kLLz2f4jZjbZO65u|R`0D(-F$yjdZy*`S5H+=)ef^L-F#(}8zx5}
zlyRtbv6HYrLVVXz0+qfs5mO*fbR;8PQZV@0cV<g?m&uIX6wU=qiWGhl+;Ai!-QK?N
zRA_Don%jDPz~;c`iueR*Siw)RH{OB9+h_uC6jG!oKyy9S-b4qQXroEMx=8UbGy}DH
zhK2qi`zu23l2>AoS_z7JB@tICub7#TPggZvj>j}rj*_EH(J?dT9E>{$6A_Mlmud5m
zf+-oovR3nbMm$s`s+Ldb8g&(-)K!F97=s>aVH|p>g$d{<G?p;iPrm)&drWs684Z~M
zrPrWpe}blr?gx9y=fCzNZ>YMzvLCV+yfN|_|9Rlkz!#p=<ueaFgSB^>o}u!Y`v(t|
z&#%rjxZ(dF?QIG9`^&TD%Zmie0Fo21EgEVw?}-%Tvw6q}sboon{rssrnb4^Rm{il%
zLXLDO__CVOfYo_3={2KoMvMB|2OuwGQ_8QAiPny;G?~sS`ILH^ya`s>pGW&CG}~^B
z@t4T|cNF*sIso~fOS&<9b$Hv=gJ1dm*q<l=F!>b%amS5ZesgkrB#igh&aGcuySR-&
f+{o{+Zs&&>;lNk^6S)6h3Pzzr&0zSd&&2;PRPP&n

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_466457.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_466457.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8019039a21291cd5a7bc346eb0acb8ba2b42d630
GIT binary patch
literal 3577
zcmd5<O>7&-6`t8${&PuLvRdmWF<r&3*;H2a6H6&<2bL6DNE9`O12<9xEEw)e;_p(k
z%ZO5!0BsnESRcroOe1KkV_NB813`W0rD%d&auG|nHl`|IAinsfL@5H~)Hh4+YO4rn
zeCtp%^WK};_ul-xZ=SvoML&Wv_M1O0{mzTfmyEHByG88%35eTBMlw#Lxn_^&u*q{7
zeonwh!AVn(^=Y%0IYmeY|69hm1y1H~3Y)EgIgczTDB1S?d9q9K$?n6)7TmJurZDHX
zz4G2fa{&%10b6fy6-Rwfnc5lZ8K3^;#2eB~+*%Y9yP)z=_wHi0Kpom<Npcpo-^+Nj
zHC}W(W(xZ=EK0_PYqO=H=rNGtHn=sgwFVOm4{M8F!(;F%m{asQbUA%%DKor=Pv*Ax
zP39+*q_5dKTis?3I|SQnzX3nyM={{AdC2h?0U2)z_6mXy{UO_wO(c)lq)iw>LtyK)
zZHr)AG;N0r4Ew<!*pINoqjp=3O&DP#WcapR)-GVQilXir!Zvx)nib`!kcnw2>QeP3
zg+wtGVugej#e|)6)K57*P5n8dE|OSAO32h5BeCqFLWQ&%lVMb)o&_NF;UUUv`3%#h
zFHslKmWfVXnywNh+D7p^6wlJ2rjvxMNCk<gD-_RAUdd^M9TMf4M2M?tjk*g`PA8h_
z0QD54_tI)SMY#ePct1v{Kr~&Zp4FDzy=u<ZSR_Oal<(diSW!tz%f;f#z)~!p0@u`R
ze{507>H`{y59mrJHvrr~dPvHuBqM=;x|$t4lUtQQ++wA;3QmulJv;L9D2&i9$(p{f
zB1?n0n5Ic7g=Cd9IRRdHplW}Hri8v}M**?YU+%BrhQGTsu>;&I<yWd#YMw?QQkr}$
zhN>M^qkg2XF7|E6b@6AVOOFEK>WT7LY4S;^t+H5NtS)Sfe5^eP4L=N>t%uHjLhi5K
zTWf^IOP3${+Nz^<Uw3JI#~-YmDxa#h*G@d}_crZ}mPae+%jatyHSJDUBhUxdLY+0C
zoP`ffv&$d;xcqKyq%IyWUD^@cA52}JTEABP)yBv_gwuQAKBBlle#Ck=QS>~?#+?Dq
zLdt}J2uPhUV4%Z*z`E2jPMwDB@w|>?&cd7<7`|cG?Le`{wKf=MyLzBl<3)71&3OhD
zT#?u9@INfnjs1WVbkQ;)^Pn?qar?bxa}9Lsb`U2I3qRgkvkeL^gEw5MNrXtd-f8KS
z1%v+x$u7eMt^2nw>#G}Bhqt9!lI$1`lw{Wd0kGinvF}SQjV~jN^d4*6;1)1b0Z=Qz
zch6b!{a*H1UxMEN&s*Nj7T99;p25#r83r9!Q6Cya8eZWrngvTuS%IHLEAXPsJY|<>
z?ez3egaulp87~o{EawwM(IP|rlaWL=m)9e@lGRj_K%ijl=p`ivH&2Pki42GnYBn-+
ze(m{4Iz|>16494p*+>TPDwEGdV(GNHqR5fc6h}>r0}NvqG#aLSTFC+yEyZ#Q6%!i7
zb5>6*=GDAL{SMj%U=?4YegFl1RZ1sP3gt72EDb7Y1<dP`mRM7$yNMAroK*_ClmnYY
zQWvBl>c19C=att8Q30glc{xVivhsc+u9&Dm-A(X|x=9~+)eJ2BCSmu0;#JdCjcsoe
z!$^e5gHEI&V{8<v_7yZGv=a!eFIQH|E4R+o2LBf5-4>>{pPy<#8|Zx$2v%M#zxn{E
zpjeqMPv4qZ$4m&QaDB3Lv9!G76(4$!)xF1RM;hLq(#0pCBh{0&!QWrFbD`1mV!i#v
zt!oeaC+htZf4SJ`ztjj_2H5a;*GF&sdM9*jyJz4o{#e@{dTaa2JKJx~ZqLqbcfH#P
z&2M|>pZG$R?sE4-UpGJ#C>*;p_IKY4JKhr;gBvf@y*~wqntzq4@>KQ8tv5_A{OD-U
zzeSJF|1FRFCwJRXP%KS-+p$l7r?E%()1xORdHyrrH7R=Hz}toG96Rm3ze2uo8zoTj
ze`Y2!Bvg)9`jDIi-t(5Uh;<u)jQyO3GdKf6_Z%2@yv6LMA1Jc>nXK^+Yc`A&1s15X
z=LcBBGJb}&xg6GP_$j&}<3O_a2Uz2tX>A^dH5*_cxATHEAG2nltB`oiJY`$|ltCaF
zh9=695$LE()>k2n1G=K=Qaq+9(jYm-1{{(hCo}A1Mxp}wxv2)S7&%KA-kWh1^-&Mt
zP(H0|kZKH4Zgr3_s03mN1jEonEsQ`vqOteHPBog5+GhIW$P38pFlhp+_Bk{q^f=U3
zy8KNL`NNf-at~wxc;nP3uKVIW@qzC`Y5a+=v-)1c*Hs#S{M_-<<@Gn~LihjA>|HMk
zc9dqwPhcrg(cD4u63{f<1j93F$O-e1S5dD;5q5HvPbPHg1B}&lrH~^nBz)V1c<M3}
zM|1nl-J*f!2}p}-TK)qvtu=SodoH8O`LuF@Tm`M{KME}c%`T5I{t^ZMiNt@Q-d#81
zydQL5@80D)adbC`Ab*-K&wnifx5pzc*p$C?6pPi@Zcl$Wy^Da{$eZ2W&ilRhdiR)Q
a?-vM*UkA_Nj;~~l!p9q-$n}8f%zpqQi24Ko

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_598128.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_598128.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..86dda500f5af4fabd5bbfb7c68392b7f9d936644
GIT binary patch
literal 3465
zcmd5;O>7&-6`olxxx3_&`m^dtj%>wN+%kYH=qHxj+6rXLl@ePj1gAx;8dxyg6-A2V
z%CjqrQkTFwFc1-GLF!~0C>kBzDu)zEQTJ4|DbhnPCYV;jR0RaM7aa;HkpTm_v~QMN
zYOShheCv=q^WK}8_ul-xZ{DB7;UI!??9MOedPRhuFvcxHo!EZ_#C@b96{pcmt;I9g
z;kk@&hQ~<5DMybxwbrVf#;4@xWsIBURNp;*quwzisFKQSDAoL*BUQg9sez;WW&^5l
z&p#7v_$A&$Ga(LXp@wF88ApS=OzjjEE?@utm21jWJm4|o2igbU{?9R6q6u}aq&Sy4
zXjQyX@6QLUfW@uA?7ZNa!yk-wDHU7(jk>P9Xo;3@9=N>ZndSATKFvawumZFtI<=&7
zANe+zpHNa#t@YMsgE{IL8eRuIR*yIqD`*ATni}In9=(x<i3X8sX^;)V3Ryh!xuHV_
zt+KOIVUP9J#)Jl8;pf&Iwxo}Ecg+|rqo{w1u#HT(Gol>jGcjYH`gL<oBT-D)X-0#T
zGt)G<K=cHOWt5~!12GcICN#>Y^_U91Iu&MtGzSN$&sfYbE#@5c6XP~9soyYlqD3PV
zzeDj&DjOzAs+y8hh`vPe6!mEf24P1*1(1OHT#e9YXQ>d^(@f$xLU9h%8@DM>3{$0e
z*<f4P{apF#?Y<?Q%o_`_xYjopi_e22dbT%~(6VNqLE?R;mRaZnt}i{HWOb5Jz#CJ~
z_Mcl=RzO^5mADQrzW(hC{R0=Ehju9L@Yy9*>0gK$hBB{_td=Gx!3TEXjE7L!=xHlz
zYAI$4neu2ga?&2(inN#IN~Fgg-;OjFlZ9j%mxrs7Gtd)iEln4`YmaS<!J<$QO1Lz>
z7Ahwy&96Qjd*u6Eytpa8Q4!zxBloA^?}JtGnmxK5l#6EzXG<-m>9zI`dhILQp>T1y
zFkHM;xKwT{8xK0Fp)>Z_mME=`6+{@%2i~8!JFz-lI$roudAJfjy*~PI?5}+PKKP1A
z2dmnlq5-0rizFNO#wd#lCz6kW^ggms3IvBso&$M3j=X&krJRbH0XJ4t>@FQDF0ADL
zi}qVAvVD2pbb%A408$SZ>mWA#D)T3Fcm#M+7p*Xj0W<85umWb2OCJT77VpNLyN<kI
z@s=<@23r?0+uXUT&mH$3wtTZVFPaS$N*!}Y9ki+A2eeCp=ihMYgVxpiI>N|g8|oBG
zWF(-PA7-7X3q6h6@Eg1Z9N4IPgV|#PKX)}4G#qt)7U$Z%fzF_QWZ)$ZqnqFZMnCDy
z`EH^m4EVA8FDOX_!j*4Lb&qt{Uxe<gZg$VbvT9mWyOY`O{$3U_-SvoJmki**Z_LFO
z07LF1wIv#i>sd3ISkxB{>Ib}t&(R=6s=2JBlk*ytwX~Lj5LS%jibj2zWR?bMflHgR
zTFz7!^d*fb`m8cQ+op8$&CEh=f~H<2L?@JwFRC#bP_;YBxaPzx4b*@rDtY1{m{T0D
z6g@%lBw+_fUWSTFlcVn_-}}Lht7A2&;u8R31`Ck}{E#j-Q1&7P83GYIDB}rKHri@w
zy?=b|xcwGHXfaR-tdi1q%I~g?RK?SqVsAz4t%`m2=vGK(L49}39<^_8i{VZ2rHc4c
zxuq(eut#^A+siE<o_uh!+7YcZN9{MaBQ2%q&wjYsHCX8y{CKq5b-o%I26Pd`)#3Mk
zyd8Pv@#*W;$mC;jaz_rY4guUqkz!||b5rW9NS)>W4=+5p@E56PTYP1`ry_oHOAgom
z#fid1Y5Id}4%f6Lw>=FDQt+7%1z+83MRK@!zHq+uS~b-5nD2Vl2GYk;&sPR}1V81@
zTp96wI^rJ_ggEex!tNl$iv2%0xj_=;|7U)nLSo~2Gmppz;7zMb^Y{QKtb@#gvj7uR
z|3xtDc`w-|JXF-c3t97dtTm!P&qKT+Rrng#u!>(`ZGMk6zZ;uQ)`V2?Ygpr6Xl;VW
zn$WPuvMr=a%$kL6Kw>bp%eH=(VKV83D$0>_&``f>E<<RCOwBNrc+Ak0{#~}=Ude!$
z8T2wkQJ$Q2)IgS@W(m7fP9#Mo$P6@NF>M-@%k@)k8NS>AwD9Eyp@lCu1ntmKq1o)X
z<9W!*1ZchlpYa(~Hrk0a+v87V6l^M<D4Zxwm+|`9PyD|L|0?{sG-6-=htytrw<>km
zmv_2O+2gB|6~6QTXY`(k<TiVXoPwo9apI@{{Pp^?&psZBhMm16uYs60)iCp18nU-V
z$cd=vQiQ#*)R#({R01eAOf9!S>NxqfmNfuE{Z5MK9E7uRG*mkaC84L)Um(YD4FkoC
z8C_jWYa?VDw6YA}fHwl|`7p*$ko-3k{yTbk2Mh0a-tFAun(@G%j37C>Rk-zK7`S~O
z;$%nuMNd0ES-N`v`r7q91myan(>(J3PX4XD&m{X75e|PTpTlims2DY!sz$o+h8$P^
E4UNCj!vFvP

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_599125.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_599125.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b8dba887eb2280a40e005685ddf21676294d196b
GIT binary patch
literal 3443
zcmd5;QD_^<8J^i)?XIMiWXEw6E562Qf^#C5ICh-e861Oix#sTTb20TDtqWar+O;iN
z(kip7ST-xzlt3&3wftlqZD}6w>cI8j%B4?*K9th-A*w=SrY;1M7r#026-r;)e^%0Z
zuNCz2)`6M%Xa0Zx|DT!tzL`HpA|V9jPV5(pQ5m79Y|t)JOW1z^!Y0y?hO=m{+2c9v
zj=3B^Ct#%GjO(ZUX|vZjUC1b3onxbUPUCM2TP?+$qy;rWN13kww$uW8P!l`r=0#1q
z9heJwdC9lYT$n?8*z>Hc;6!Mbxt*rcm8tK%d0m}OiM}vQ=ArJtz-);Yw9S&?+R{O<
z;jNawEcz^k1B<q#VLPzZ@=%s+$>x_}RF-XIi#E3!Kxh?AZHcwzpwE{-x0W+IXv-RR
zpWkA6LdgW1y}z}*L8oKzvJUwobvPC~WQSO88on=h*@u0;qh1(K$aH(6C)i<IU@P<D
zD&SdRp34y%ci4fbFRw$M8&9yKcBIp)ZJasm8F@nH8=mM1?M!U>exSXN7_Fd$I8E3w
zEwn8Y92Ig&bBP8FYf&c&Ooe1AZ6+{*>`_9YoRy`a0x=dyGN-0BDke!Xzo1hgYa}($
z8dRDG(Yi1~d9#>f-mFC$Am$BX(ST_g1Z=I9f=)wvR?q2qOSM)KF^a!O@%O1>S|qLM
zYDp!=GR4!B*9#_L2TvuKfq*3{q>QZTrbES&TCj*oaf$LblY|Pyv^0uWsJP-P%ouz*
z@YV9q*`Z~FESZI5N*`KGrj{T-BY!rz0I3X_BsFB|xxx^PhO#4S-XJ*@QnHNv@VUZ@
z3e&Bjnld2Ii(_NMBNstK`_#7i{IaGF7m}u_F6kt%XUVr92}UL6AE0s2mokcVujeYc
z+GHd8P3PK9II=!g8LQ6Jq(*qaxw;*WRZmpjaIQXyM5{+?<Mr;-^~mXuPt_ymoNw>Q
zp>?SuRmIxu$32havybKTb@}|~hrWn^7H`Po&g8R@vOZWDtaevtHhOC_k3z?tH(7+&
zE3dC#u3WD5)Xb0i8sU==M-HxCt;o(~$2fv`=j~f>uYFLR*__>&t)2M!;75ax<7eve
zGmYNYemVLV;f;M*4I=%lISLIGiEb51KGlLf(;{HhCcXUBr577zJc4ocZqsI~G6KE-
z>y}9s{}7eAG7nnz6aGg5s^LAbG7oLm_StD%8vtbiEIJT~mqS3~?Z7Hz0TdT*yXeH>
z5VcK)jNrtjtFRG=EcVB_MH6iPCrAs}BDCVq0&VLbVaub8Oee4((1vUa^BCx{x9!so
z_JIf_3PhSY(w;r&57ue(Ks3^QX{$x37;*4brUO;m+>g<BQ9_>H{TCFM4bli<w8~Ep
zyt>+-7|=^8UDwQk53@#UX~0ac>I2zyE^Q6GN^t^+fuR$KA(S%mR(hdm6ivYSViFK8
z+)V4sRA8S_rHyuXBsMWcV|l$~sRd(MC#o^8j?mBt$!t-7ix7j*0FXs$5qKh3uvXM;
z8sNmBM8zgaBti#2A4!0MupOcJJ@OjsgSli$b#rzzB*)pLumJR8vYYyV6vzptQT+HN
zmtZOm)%+7Q4g#pGD;4E#)S2Aw>fV$#q+9Pe@2^d=d9fm{k?Qc>2<TeF8+U_%s-DA}
z6B`qao|Dehc6YpH*SpR*@9abmKaQTNM^D|GX+%#u*S4i-weQbTd?$LecA<8omU?*N
z@`Ln)AN(Fa?0dHnz5Y<X{!ETMmXFruqqXjad<+~bk+o6h>W=VAO{)th8H|TnWVs?&
zyYGg9NBHfoBY&5KfVih1<<Q#j`lZUH>czE*he97Y2@6U=^@{fb_^k`kG%EkkSAYi3
z7vHVe;irQ8vo%}BmIp}t;QheaoDJX@hctY5UkC7O;!8#2ebEj8D%b#fP5K(qu!dh^
zZ2@0258!1HZg`~0Un3g#QfrfZ(WEw=z?%xlKnt>HHUn~KdY5heE~8$!D~nnZ?sQSp
zZ>Cc^4QTGw8@6=QQd3D&SBH1mrc>X{h<|XwKNw92<UF$uz@4w<Nd#mUDv2Om&$?O6
zS|;U6!<1WrS{i{KYUu*>P)noGkD82pJ@7TL*X5?;yFbYk7)?Mme+P|&o<zHxYhNlT
z6k9)5IR<|?zBl-J;ETv-kw?J^=gPBSZ}r1Qu+O>j<dx&jwYB%^Lj3>7dQV15k2CEe
zFM$`HFFsxS)jyt1BqHu!lC!Wv8f)_5xh%Y;itrSna$6$qIr5pbMT5Ywrlpq(q{V}?
zdfsF_={~sJgK#&FhMQ-hE*M$u6XXVNZnQj}Gqhq>pCIo;RCaxt!1ZX4#~43F%3o3B
zZ>WDyM4Wslek;Dm#qij6;>@T0pY*@rLEh&Pr?|7vPxaz>^{vgRjj25Z;=Q8VJqY|p
f`L(joX7<Msj=WIL;hyIjMzQ0K=)kS8o65fd7Ovc^

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_637798.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_637798.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2d26ea5510472562a18ac407213f42208f7a1615
GIT binary patch
literal 3354
zcmd5;UuYZ28K2pIT1hKej^j3#6XINQPSxb%vt!~rYP&dbn!7e}2{G56X<4?~wJllF
z%CoCja#yf90%sA5<R|Mmj^?2cxh8NvxN_I0mQs#FUm_G5Gj$<w_mYQ#?|h}ur+&NA
zu9a5M%UcI#=9`&szdtkc`_2A25(yzF@zq~1|1p5jXU@PYFm}uSC(vyn6{$Fb7Fs=C
z!0wpIvI`tW8cw@*+F!IgmC?Ag^z587T4YrAHg~_hun<s#DyN}z?7uZtUJI&1_q9bq
z4cz7zLVjH0ZL|<(kQVkWOC_8LJ$1~^(ZI#4KfLq<c`hk*xN&3_>i!;fQZ%7$l{Di?
z2fd2#x7W);hbDKR;YljC`1@@O<$x8i*cBL+MN6=lbsnUkg{<H@s9OQ2Er&Ynb;j2=
zXoW0MWgf8iomioygRQ=^HT^-iqwpgScX;Y@G*;LOI}xh*0q18Rb=Z#jZhRr#>x;f%
zNfzg1=KGC+<%pYm)WXl?-qR7$A>V*6SUpy>TfP=fANG}eA^i<s^aU>lOMJk4JBU#U
zC4@QR9MY1fnP4cFRg4wN>*lgX5}0yIF=Zq$fgM2!i85w}hVn#TB1%?HsZ>yil3UU!
zm(dj!R&^R!1kpS{Mp>hfb*!1olqbe2F)44DIssj?l-FoT%V=3GXUb+N5u^CW6u(I&
z!z3wHlZ!IZ*C?K&td=*3bL5oIr&KvhgZkp4p_zu9b0eZbP?QZ*0qa6h&YQ%bxJcQX
z3ZWb^OqJpi6-w@c;h<~iKgz%6N7i(*V&s*iHnOZFS0G$H_mZ*%k&PH6Ibv$r{0NLj
zGGlU1Cs`RHH1*u*xqL~6>Gn`g>JavY^Ai)Vz5*+BK=#xZ*Hn2luNa2BqLG}IAtxaU
zhgXb0L1Uw@L=@?%UaMTIpJ+-)?aRBdLtDYkVEsh>N6pxa_Uk+0!?o4Qls)?-)?b$z
zu~RS=iPi=xKdrynhz#4`+Z99AKqXKU>ht&d9*HkK7GG|NFMo9C<M@a1rZ{QOd>)dj
z!<FG$Z|(YKfBpKS&~f|HZa7k%s7zF+DpU2oy7A6HGknsX-4TNuvlY>vdGf3WPI&vZ
zTd!@rQM<l1zd2t&@yp?Nh9AezG~#EP{b#qw|H8ep54j+6%xR85Lj|Il1(Hj4a)<~E
zF4I^p(^x3&a}BJti$`2#WVVqGSnt9w)&Z^<u+)Vye&X;ATjpT33s?Alcr)zz?ncyR
zkGJYD+B(>@d{*#KRTeDH5>{p*`Cij!0+q42cah3k!n^1_&eMGhTkIk(2h2Xtt`!&n
z5!lelqu-l7=vDt)@PaJ?5Zuld!#C+~9%y<}_x<o9xZ$8ag%C#T%-qy^?~qnZYMN>c
zwO@xRmk|K*&i(`9LrFbnrj`nN!Js_gH@OVZ&F0OLoJp-{fazrg&@6dqHd5;v6<Q#n
zJvpst%6WZFBeK3I11DrtIU0IH$rQB9gy_UY0~K1Zr`*kyww4eN?hzS+7%09*oGi&1
zr*Wd9+!D});an&W&g2DWUh0G$8HcGssKy7-*a&WSRjNpLqV~+L7<nunX^2Pay-jh@
zp4kaY4jgXH+B5d*PT%3J>CNe8-%0!GZuIcu=&45Z)UR&b>)$@xNKF48H($Kij9#*@
z>;%M(iMM{f8$D7Vt1I;z4~Is#Pj3%A9QaN%I{8qX+>s(1<M!+>cdV{9xRVaJMmLn|
za%H);dS|6RT2J1a_y^1I!k&PnNcBSHLhZ!X>CMx3zWb1ilT#3L5~^SPhx!jLd{PJ?
z;sdDrW39qpM#sa|1xE11wP(xN^!|2`b@0qH&b3teNeJVAcoUw>8{6TH^{ys>72v7{
zzJ@of;^)YX@9@U^-URp=L8|yQyfM#}TcE>R!1pFvB6tfr-Yf(l49z`tw*IMeiz$~Z
zs0uv3f~wt2B>`2c`$mRM%`oMpVrcT{Q-@1w$IMvg;C$y`Ji(D~Iodot&T5WCKz7lP
z2+{!2j6%jVC{rAzObKdn40@==^Uy;rjzd3gIHc*JYp4aUm>W*V%SOHrN*ACSpF(4!
zC()RF<tqt=da8q!!P@mYzB~L8|8eBQ$fMx2eev^Pf9+?@;DCMc$+6@1m5pl+F8=?c
zy(c26&z^IUm%vNE`1^0}{`1rA=|sfcOL7)6q&+QSJC}i<o&x+NP|=f!dyZ^6Wzrxp
zreSKuyhm^ITF%f3<=sCc_aNMjqv6(B$V+-geIL1wTN^D-W_7iY(Wc1_@amx40LDgp
zEXMdVB>fdd{)UbMZ7|~7@mujdCWc?#Nu2rM==(>%WI^6%5hJ;?Ukpoluy%Rt>gLrw
o1mfL-+kL|SPWr91@67Cf8{x>8(mCAsg^E$n@n&@BR@e>Y-}i3CUjP6A

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_650964.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_650964.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7a28d165781a3604ccc4d331d8b9839104c24e86
GIT binary patch
literal 3507
zcmd5;O>7&-6`on{a+l<ilI$w7rMRY*!T<|cs(vclt?WdK45y94BB|XvYJdg9T~VY+
zE<L-9DRl{~QUex|gDB)68buKm2#~h&B|wVg*dL%h^dgl(txi?IfOXNOkfRnTdTHM*
zxvRCKqVcVRotZbYZ{E+$yl>tgqR}vd(q;W(Zb(AtAse_wXcGtPK&&AZsW^{jT0Ne@
z&X_9%W_XM=oO9&3OIy9lX?#w8e2$G~IW=&b-)R4s5mia$HI(c8Jf|vXp;=xH-WF!U
zo__H*nu%~oi+B>`1)K=&vE@lBPELR4#g~<2I_ML}=m6A%zhUNz32m$7IF~x?RlL#u
zUk&;=`9ltuQn4j$v?WwUOSA&>Fse!xvVs=32phNvtksZ(9~*~#QvFu8#abatWa}(R
z<?aPGnB7ovp;qs2O>c12_IqALeEN<!4l80sn5`ba?2{YwRCq+L%OgF)k}aOu?8%6N
z)F_i$jrp`6^A>o76>fVQJIX@~=f32zdPMFSkMsyvvnAc*-95u-0VRYaVMmm4ITIY^
z3n^os3c5L`kpw2}q9<g^nRyy65j{gv1tqJ}V2Y%Q8IAIJJ*C25or<$Snj^zBV3Z3?
ziaAFGV%#Jq6%11+8WmJ?p`_8Ume&ee(NxTZL<hw;D1M#FhDoxjrc@N7-=a8416s)-
z>~v{>&G2bGZ#cG4p`w&bLWKpV!xb8MD@7<z3{$0e!RUZB@yE-*t_|MO$-GfYrM1Di
zRC*pv(~IX)88BkdAn8F<E0hLdG?*V&iaIGMV2r63hXzUu3QV_$N?HdC$G-lxi({kk
zhn`ei_SsviGE_<#hBB{_qLwFTzz7kl@mpwYv>TRJ&ehH}a5LO%zqk{Lu3W5LtiRe2
zn~}IZwH@iGpQ&B2ryj`BdZ3=)>g?Z=`|T^+j}LdH@QPRy>q3KHmDfjqW_&7*+?U3-
zq_L04$BQ2>Hl;~>f@wNiJ6rFnzq;D}&bgMd^R@FUmui<9#~a4olg-F;ph*fXPt_!Q
zVuugjd1>jT<?HopwKp0=?~UFaUB@4YKNauChqvOx&AyROzVavj`2%nRk!M-c15Mfw
z41kO+_}Fpa!$LWjc(PPEm~RKG{~v(Fk^Cw?32YvGAmCyb@riN>Mk+Ud9*pY*KDO^q
z6c-DtOwJSk*zgSoOo1wIdN6VnWLSp*ET{pH6#cv?SJNVs7&O^sbcz);Jz&Tk73jPh
zqMpy9#arV16nGUgyInadZ}C4yKjB>Nx3S3%#3@!_*4Z@xSmD3ym*B1g+1L{A1vlCd
zi($=C=VN)AzKarKa_`?z_SgfEMF^wC3)kkdMtpiW&Y~u+>Y4$R88^zMl1|L{td=s%
zM2oB0Lj3Zj_}J*nlLPUqy7`T`gF1;IIS!%-12Mu}Bn-No8|H*Qz>Z+dr2sNSqP2)%
z3nyqetryK~rmU9@Dgd~o=Kxj;C38W^XXiC4yAWe!7d09vWQ#P|ifP(W)GDS@(r;-*
z(Px!mD!*0+Q3dS^Av$p)Hz6HfbsDZHj%r2EQ2a{E!qZ?TjTKTAWwvZ+s=~B578@)W
zT<{@r#wPnwf{elxyV=H{p|R0+*Ri#p)gJrX+fryHR14Mn>#4QOYNqk#>U>k`w<oqm
z=}u*-Qs;hT)o=b$JOP-nGF_W~C%KHbBk~GF_R^F+Vc*=9qW7f}ThfU}S5xY<CmwY7
zHd5~u?-rY19@y$0u#-EnuKK|HXYco4*y_LVNmsM~o6Xp`eHG*{pMU#@JF(u)Q`a}Y
z_x;W5H#YlTZ^mXerI}s+RO4nt-Qu6y4oBG6{mj~p)f<h}yFXwfxnsMt=O0l~2<{(4
zU>1Y48343RK2G|<yEIg<csa&z9FWMO>i^6$R7iw;Z|xBo2E1kM*(x@@u(u8~6wU(J
zQH60Z!}rem!K-bc8hk2k0iU*j8&XvWP0%KO0c}{tPvM*3)8++mH3(S~Ql&4Tje9EJ
zM4vX%^G&iKZ&O1|n}q-h!pS|h^?U5T!{c05Q;<0XRqd^8S|beUXvEYEQ%R=`O&Qu_
zTkfA3_76t<gV6*}zRI`-$S>3)VJVptHHnae0_D7EP_8mWxdo_|Vd$Y&MxcjU8HIk-
zU@-1RVZ0TFosK!a2b+8gn4X7f{0<r$J&1MMSN|@faK}nttq&e&yngm0;p6Cs(N9B{
z?aAFxcm2&~=%hXQ;M8gR>hddFeDD7c_r8SW<95=Cy9CZWntQnX%YW`(PDGu(Bm>|f
z?PvkuKpyh8GUPr~aw)=MhX!(4lZF6S4O6R>T1ZHP*R-OcL$>84cg{gL8%HC6$Z!@)
zM$fB1M~>pwMoZ%bT`lLe%j7kX%AN`%1<if{WBd@we?if|qG$Jmh?DO0F7@tnG5iAl
z)$s4fe?9&gV)Q`(adK<=QGX9UQ@^q{y*j;*fLt#hu<qamjBxZbc>o`Oq+--@x*3Zv
IMI00U0~k`|Jpcdz

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_674736.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_674736.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3e3b05d47a05faadab655f692e17c6311808db1a
GIT binary patch
literal 3425
zcmd5;UrZax8K1Fty=!}IAe0`E&^VVKighIvf<muNkdlz&awV>Ejj9&4TDhJD47S%d
zyAFn1OG_FlSb4xmC&hh3eae+Q+)34)Dpl&AhxVZ_xQ-e$r4rKRg*SS%s??YEo3(e@
z<fwXi>qs;6%{TM?nVJ3lcK#TPMG%yKnm?Z(kP-Tn58M)J3x^+r@DLG1a1PD1dOU-j
zaUdU@5irv5g5$?EZS^Fe2@A^eIzE~Wkl;OGt35Fz5kW%>ou6MvL@i80$Is1%h;&bw
ziFjGb_s~o<fV8ORS6Rl%@IH5&V$#*=?_B$~n##DF;%X6U5bEL2FyEjFZL2H<T<NGM
zc&j~M30Wa4umaW<$!8-Rt#u`WEpe;ut0G&n6<mZ-CG4~E=hHT`kR`2vY{^a=CV|Jn
zEuJTog>b9)x288Z?h?GLBfhA|T#6O3B79E-KNh^4qdwnpFN`NFba|pDSW!#hd3$jc
z@T@qe74v0q!ZYv$3qQB-m=%63y8Fgx86`t0$`5nSwMYh-kWU+nOw`SJjV3V@(&em?
z#FXD`GQt98jzx-8pQGu#nk6ihrs=|*#)O=nCNQfrX%<BD!YB(Gr9Ag$&NGo3?^2VA
zhN)968E5$W4F7;BhDozTQ_CvVml#g5pjI>}zZMoOg6}Y>Rl`h!rI68chLZ!sWfr`X
zrc9uQNf=%>_$elyEC0GZyrk1bqnOTU!}ICPBIKYKhSGCd!5lVdX4us7#bFo?=SJ0n
zPV*`xV(NvF^TlNq)a{{~(ILBw<749&F2W4!Q{CmWOGF(hrVT?~)M!D=(bJFv|L%+r
zps~@jh_XIZ9jfDIq~E@_)7f3iH9B9lZ|p{6>u*%wsNJed&1k}&+=+J7&Q!l)Pd<|)
z>rz#!;o6Oj*rw3v{OY5z4~-}Cx1P!q4SC{M^w%rDTxrU0+gEnM^<Z_d)>XT;(Nn+m
zBy!rm#@&ur$JZ}cFW0;4#!vg2(X-%O4zEpCWiSy!_upE5YwcF8ull3<?MCd(=E$S5
zKMP+!gk%xz=gpU)VIiuSC0fY%u?iH{Li95S(H2_pFby;9;u1s!!MxwPJzoico_|3v
z6xWX6#Ysq_2UbZhEP){jSOF5~1Ia_te~I%$&IQ4WV0xH74!_nBl0=9Y`+P(<uS&@5
zaA!>qnG44uO>ogkf?k%AC0QYd0R(4%QM1SOMnrf0U2F-K)SiFEn-BTsgR{6IoBRNr
zV#!<tPUG31Y%6^okz8Bw3=HsC-fD9q2Aktf*b2B7-$luAYM)=>{=cDQ5pZx8A&geK
z+I*idbv=<w(>ZPBTq-e<aMcCfOw6YXB&U%?wvZSZ;`m6k@xdJeiEwNK{398?U}on^
zddUDzm`@iq79?39i#u6uiHSfGnRylgjGD`8F1x5PMayY<0IzCfS72>ETVSCUWLZZ+
zE1POjU(%?m&#I#=^1XDfq+O>}r>r}rn>X^sma#@0rGr%#YH?38eDwL#LCB8bo0MM?
z9pKIDym1Igm;<UZ_-ExY4gCs?nBpe|ItHq4sKy>NHUbE)D^=w|+`h7-#MY;(Q}*>8
zNxolNE&XJv)^+ziu6?umW^J@qs=u?b+*Ho2;hm_$(Y!ioU$Niam19rk-iF*;?`p~?
z?JIlTUwSyPG12TkYftaSyWSssdg5H;#JNXZ%@eOby4{SA+EY7HymqP~4Qz^kl3v@5
z_ip!ntr;KMmWLqn+W6h~cH?KZU!88oZ*I#s_mtS$m_4~G4Ae<OILj$xgeNUm<yzN+
zD2O|9bf@!`e?&uK=%5opx)-Y#Yp*@Hye;(71Z*+`)hqln<HvRQJBKW?sPaFb00dqx
zzF#7IZZ8)2dA79`Y<l!y9X%d^9xOz}OJL~x9UenNB=l0zg1%@$7a$b@K!u3(1)^bs
zUt({fFPcXV&cg^1`3pn?ihPM^k}sM^7tVtUkuZ;DA)tatYM&qdKK}{8Ke$BF@IVL=
z?M^nMF_D<dfZV958K#;^8=5*o&+>&n&8UBH!9N&F3N*=Ai|~LT1<G02flo5bB&r#u
zoN2H?d4vU)p_WIXhg!Y>J=F3T^kc{2vC~P%_oJpa!1Fhu8o!6eMtkv2d+P5Bigc`>
zte%8lG2R^fh4@MAqu7)1gnji{xTp5xX1LG3x;Jpzo?5%v5c>arRv*Yn>9$i2@{%#<
z0O=5Hi*>Z<@O%zlV<mX#Fxi!;b9upqtjWT_yN0Qii?mIGx3z)+G$}eyHs|!6(_+!q
z1*mg+j(mWeXf3vrFXeSo%4rky9f-<b0tSCO9t1JQpCaWiDE3!$Y7a~I`&au90uem&
zo6$d9`t7C95Qv9C6i^)HL2obat6hIMy)k`&K-?@j-G@D&ocie0A=eyU#R$hfQ_kb=
RzY&Z&PB-I;)u@xme*nij)NcR)

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_786517.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_786517.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d9f45e4cfa33248bdb49b4d539d74dbdf0cf89c4
GIT binary patch
literal 3577
zcmd5<O>7&-6`t8${&PuLvRdmWF<r&3*;H02DV9^%4lF6QkSJ;l2X3SYSTNj`#NVZ6
zml35d0opJS5k8PPnMTo8$0X9h27>y~OVJj+^dgpSZA?|bKz#8{iBbf}sc)9t)m9PE
z_|~Cj=Djzw@4fkX-#q<Q6#WQ_w*J}DZ@dV7!5FK!+r-}QfVhKXB;yR4YxQ^zn>?50
z=LC!toHF%TpSF6LQ-oCTzh#VD;AH-mu-P7%^T>jNQXSu&C%Y7%>^^*K!7Y1k33Gni
zEAK5d7vPW*u=NI4an$#Wshy#o@#&vWyd}*ftVJ=g3n~wF?;d6g)S+#a6lYQUy^J^8
z<0ZFarm#Q5qGW8iHrpCX9s?O}gIfbzYcRp^u(sqiJO-bJIVGP%m(#blGQ(^5WNwS!
zWPU<P`C7fR)otdmL$JN}8}MU(lmZT$ha8U)knxsauOR5qAF@r^MCyo5+Jq4_1h!7w
zwg|RG({{+fupj(^{Rlfe>a^9^gb_AEhHuMd?E*%tDC(XeY?BwQSy7G(*|?UbE>&Mr
zNEA~cUQB9HOxQU`{gl%))SoBnB8g|Eq)gp$63;CvRLH1t8Aes=SpZTW8K%5e$TDsE
z5_J)6ndsD|=_*m89TdMu@hlB$I!VfkRFsIiLh%gcmAppSAyJ-5goK*WsJkfTb)uOL
zP)||%AfqPIlq-UP595RiMAK#JS#8VRtLAKtMMC62`S#tR6_up5d_18HEyWXQa81n(
z#ut^GKBSSvkgjC&L%<DXhNYZJvJ&{GtGU>j{Hg@vHY+7maC+?A*;iv@FhYAIYx=^9
zEXDG1O_S0J$tf9f0=)1*)qW368GYS}0%CQrGFZn=e{XqW2e{WNuhp*BJ<UL*Jo!Wn
z)w*g%<H$fm9N3T>;!nz#9|yv<6P0u2$)}-?>SATFwy-h!iS{rw@+fq+5jy)hd9ZeW
ztr;3GUwQ27sEsvzz2)&8f3SM0a;nx@Kk?At-?B4S8LM8XT&Q=|wYxpdzyMeab=QST
z4n8!^E`R*P%KP=vhIqVuc}H-6G<9QY{d(;e8>9aaPVa&Hh~gso0qfmF(F-J(a0WOF
zDH8@FAa%lkfer%#>r%@&eHymM^Cprx3v+H__=a7#1H~HGI$)gb>Vaa7m(bxh=NVLR
zC0@6~|FBRu_5)7PMazWDgU+zU?e~_=HPEfwL7X}){CI24HYm6Z-f*QS5h9&>x201S
z4E|S0b{Q^c-M@BOU){tyye+MgV#jcxq<RhrfCZnAeOGE}d=+7&_gUixw}6=nfLZ~*
zd%=?L_p-<O68r{u-tum?!4|Xk41U(iFzC3322c!Xc!k4g7A&=7MSd2oz>6~Tj9s3!
z)6>Hd7HE-HyhMnyTu2f{iwqA=Mv}RFL67K4PE$z|fr7Q8mz6l&JS8G0vmj2Yxya0g
zwHG6qI9XIkL|=;MB3ZzzY#|$oXEN%FB1cYB95pcxFpOQ$XqfUDB?nlv6wfPEOllC%
zIX$^pPzxIMJ7^bxRbq+y0TlFADU(bql+Pw}G^k`0Ft1Bma!sM`7Dmu;PATeA9&8dx
zU66*U|9U)AP~IR!1&~S<<T!Q9%7@8>Vxj_dx4<vzCIjGAE3oj}gxv#*S4~$nw!JM3
zBM~MKI+2E)W1~>DFQF-;oj_=Pxw=wWxqZGK`&*!YTbSB@ajFSzp#O0oSbe?n`a__C
zVs*MQeS2mdGa;bDjmh$*^74*XeB?dW@E)rlX?pw0m!5`>)K1o8zrA?(Vzck%M(4|0
z*B=c|GzKUBaH%<Xxf!|wu;KBpkKO#`PUzTn-_Sk$iMBob&i2*!w%?iEo}Jt7dA}K&
z-}cTw^@XavmEK3bUVtW0c<%1Gzx!U=@t)X-ZM@X*{umr;{Z*$bQ?;wN-!i%I<D-55
z7Ck=yH$3v6-0eg`u{`xn*FOEN#va{29X&b8^MB@DlcFa9yj|GNvD4oBBjg)*P!g5?
zXJ#TpLgjd+56Ma3J#R}(ShoSl*w1M=gEJs>&x2vdTg-0yfg-z~%Np;nX2VEHV1X)o
zzK1m|<L6kL%VEuipOPCg4kUZOhc)iG*5+|ovjGNjJ1<!CF>40828qYaGq&~57zC0L
zXrde$g^s#peHFqupevd#CE}VQ#mFf(;E)VEnGq*58WqS-O*N3k$T`CB-i)iLk9q)y
z3K?C4R3k>Y)fiz=3B)i6MxcjU9EE;VWABNbYP2G?!}Q0I7mzn$(galPFVK|HlTb(b
z%GW{U4_EsteUJg*jZ>ey9*FnFhrWyD@u$A-+6PTvPkH>w3&+b>*57Ujz5hS6cfBas
zRh}U~f~7=7a|g*QK+|vw49{dBCoDi-MZFe9*vU~omDH&ZFjmu*VxF{-@Ldz)smn|p
z&FwdLiw0UJAT6pH`BP+CYwfQ0d{&hU8Ra6m23pyF6j~aZT^?in1q%KXiT^_VyKcmJ
zKkB{FyUTUs=xz`}{xn~i|4IaIk4IdvC4c287He<Znf`cs7Xi6ZFuQx*5Bl%-?=i{V
Z&kz>B3ZB7TU&<JTk2gb+8v)aq{{T{P`ab{w

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_800477.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_800477.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d94f17454f4c2222607a3532af77b541ff008653
GIT binary patch
literal 3577
zcmd5<O>7&-6`t8${&PuLvRdmWF<r&3*;JPG(?}_72bL6DNE9W81J_anEEw)e;_p(k
z%ZO5!0BsnE2p`CtOe1KkV_NB813`W0rD%&>auGwfHl`|IAinsfL@5H~)Hh4+YO4rn
zeCtp%^WK};_ul-xZ=OCEML&Xaz5Iuz-+B@Hk}+0sw}`zz0&xe)NXBV2*X;2eHhC_?
z&j}bQIBDv!K5h0grwGa5f6ExRz{&hAVY4+b=aB^kCELC~Pj)Fj*?suff?M|766XB2
zSKeD_F2ErrVCxO8;;8Q#Q#(UF<I`_XyeZAZtwk}h3n~wF?;d6g)S+#bBxh0ky^J?o
z<3+b)rm#Q5qGW8iHd`8s9s?O}gIfbzYcRp^u(s$mJO-bFIYpmCm(#bFGQ(^5WNwS!
zWPU<P`kKA7)otdmL$JN}8}MU(6ax;Mha8U)knxsauOR5qAF@r^MDmDD+Jq4_1h!7w
zwg|RG({{+fupj(^{RlfeYPZ$cgb_AEhHuMd?E*%tDC(XeY?BwQSy7G(nV6QME>&Mr
zNEA~cR!C@3OxQU`{gl(w)Sn~jB8g?BgiPHr63Z?sR7k5a8Aes=SpZTW9-_RK&oFKJ
z5_J)6ndsD|=_*m8Z4_Upc$Nk=og`#MDo8|Kp?HS!N=_r}kSNb2LR?L2)LoErI?+rA
zsHY&kpH|~3$`!!C2QfkgqUkdAthVItRdcq+A|Z01eE06aib_&iE*4h?mSXV~xTa?N
zV~a{wAJ9mAKvy!k0pJGGLsC{H843K;)$HJz+^PiP7AwV7aC+?Q*^$vv7@=K~HGN@4
zmIiY%O_Ndz$tr1b0=)1*)&2xc34PO!0%E1V++V{De|KqO2e?<uuU4<rJdHr4H2Fjf
zRXeIi{YYP3?Aws*;?GK#9tXnJ6Xmhe<kL`FWwE?iUDz1;M0*$-eiVA89(v_d@?h=$
zS|c=Gy8PJJRvoSTx=Z6b{$S-)`Bb&NcH*JGw`pgzJX$$lK40soX?MFCfj+Pn>Z}Rn
zEPQC1UH<6D<@ahMb@6!V(vIN%aO%d?`nBq>Hb(v-oZbWX5yb`aBi6f#qUT9A?hJ4i
zQYH*UK<b16104ng)}@wl>NISR=M5xt7UtZ<@D00e2Z}YWwZS;s)dR&EFQUV3&NHas
zio9-z|6!qS><65ni<SwQ2c2Py+wU!#YoJ@VgE)Cu`0>`7ZBTF-yx~esB1GEtPD`gO
z82rabb{Q^c-M?{JU){tyye-X=WXEuzB)bj>fCZnAeP3#6`~|{D@3F=WZUHkD0JQ>q
z_ktzg?`4nmCHM{Syye|&fh}h58T_o3VbF0E^`Swe;S~;}S+LZU75G`S0x!zUGj@5_
zPEQX-SfE9k@e(1*ay~&6Ei%+U8A)Vwc|D>lSxqGg1Pa!UUQ%Lk^OT63$bdMZW+OA_
z*ItaIV`Nbw5q&9^jbs3?GWkp-mQJfHiX1sjan!^(z%X_}qhZRYl`LS<QY@!XF`+>`
zXZ6HlUd?ON@1R`(R`Dh32T;&grF0^tP(G8$(x8%7z`QPLi8Y0~n;1dES*4&$Ij~72
zbwL`U{%f&xUU{7m6+kMUmt)i|D<34{iirx;-2}g=oAiNK&A`HM5q1wKUNv3S*!DIt
zj6|3`=tLSa#zvuPUqMqsJAu&pa%H8wa{F9u@QXn2wlKB*;#33LK=0!~u<}~@wTD0j
z#maPf`u5B^W<o%P8<VArrR5#3_{e*#?mbpJ((v|_E<Oz%sh+G2{_euv3yq$a>+LUZ
zU3=6&QSYDl^TkI0rAFv7z=p@WK6>-lJE3FSJp=dfC))PVJKI;TZ@)9UJv+DE^<E=1
zzwMoW>I+r6%iWKB-2hFXaP02b-+eFbcu#B$ZoE|Y{uCT){#B;RQ`IZC-!!@K<D)(Q
z7Ck=yw><Kn+-*leu{8B<$3Fd?#va|j9z8k9^MB)AlcFaMyj|GNvD4oB3*;MjPy!YI
zXJ#TpLgjd+56Ma3J#R^iShoSl*w1M=gEJs>&w*jbTg-0yfg-z~%Np;nX2VEPV1X)o
zet<PB<L6kL%VEuipQ0Nw4kUYjfHm&9*5+|ovjGNjJ1<!CF>4083W>+eGq&~57zC1G
zXrde$fsVRleHFqupevd##bcTx4U$uAz#$oOGQ&=0Br1@fn`$77k+X#1y%|?gAN2qZ
z<<q(bsm37XRtE`#N+5<nFbqA^!U*&u8hcOdRHGTGZKgktynws`lO~{QpFvYXPeN^_
z%ijc%KV0c4_do`KH%@)(dLZ5xANnqo#-I8+tM4~_U8V6SFB~sjUVp1DbpQX%-u0qj
zM`?!q1eOvN%^f6Xfu`Xm7@kQ(PMC+hih3=Iu#=;FGNDr+V63Jqg&b)i;kzcpQ<s@I
zn%i&g77a8{Kw4DO^6!ypt+~72a~W06r<DujDrjZ@QD`Y>c6p5Pmnis8B>oHa?z$1@
z{jmE+_b%6oqq{)_`O|!P{%aAqJsxqvru^(tELLB?GyT!@E&_5RZ+7=OAN1bu-D8ry
ZUm`4i9Xx|OzLGHtA8&*rHv*<J{{ff3`W*lO

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_839169.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_839169.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..29eb42ef173c1530357992b71336585ef888dc87
GIT binary patch
literal 3741
zcmd6pO>7&-6@Yh^%jNQCsXt4yEUT89RubFFDkUX~VJC%t9Jz_i!mUxeY6D`;T~VY+
zE<L-lD0Nw^QUeyz11a<%7EJ&JD3G?&K?aK2$D}BlLoa42)WTE+0wfpR)F=glUfMUy
zA8k~&jc*-de);CTH*a>nnLmo6hk<m{{Pn`8Zie}gc4~>QHjaM_jZH>oWRzg$Dm9uz
zR-a8e<~YPCC~oPgO|8^2t8j7OXUAx7o|PT<x$Wv7b1s=vn0WKQ%gIi~E%S~4o9AWM
zeQwTE_e!|W%z0Tx@z(YFR#3owNY#djYjXBmQ?G?Xk=ml@uoJQa^6{sLE>MTElHzQw
zbyCY{yZV2Yw@Gp*61A3$4Ci)LL)K+525+#dU~3fwvVv`{-IwZQ!x=?-O%W3p>dks%
zhpp>&8!p4K2$r%Qo7M&!VF-qcS~onhV~5+OYlajTE497+@3!j^@EY)=Ys$K9mi=~3
zmA2uQ(auRU+&29UHay<eNQ1#q-|M!0VB2Te7HziAG?<C(k*`KTG(0<eEdq#HVFIoY
zrkfQ}15X(d|I6krLLl(a?SRP_Y~g8(OGVp;%Ux^V$7Vf6&@q_G;sQZgKq2`^zO
z6;+6HRl%x8T=NN4(nm)K2ek~+DsgB_Nvc#|AWp2^#X50nx{8&6pP<_WeUJDw9mixP
zoC#xfnV=AHC}|DT4I?~^P%GYunh2}&^O~Y-M5Ke7E@3^K)-iG1ld$C-K^ekfO_vE;
z(dfSPekT3n=J2wL7qzq$QHB?!$Rc>8riP@blG2AY92wS?WO^8S!-<h_O2x@AxTUM9
z;KlSx7>29ea6|=PUmU#@eBl!OL%PB>@%d#r9861^7G6|vN=e{8@WBOHdkTfgd?YsI
zU(dZ>43@<n^Ob|vGn;{pKyjkDTy7mOUpwNN_KqUIb-r|VsB~t?y#5K#c*Xo+Zm=*@
zxb%z3cV2z_)jiL!IkoTYD7NIjVNQd9+naagTm^B<TWbF5?w1}%_Jql&!qt*+_4jw)
zkG~f$3pdOO(CqcCOSvzbQwJVjzCYJrXe$QyJU!+VsPOso<GJztOSzYdZAI;8U1jfc
z<}^%kd)B9Of;n-(@ei)8U0c6V=qP@z)Y4xP`+wP8632F>$MT=Ksbg3ggL`Ok77Exg
zMPI_Hh@B?%L|e?6hS5#NVB&S^z(3V=!Wx-f90zsHAXh!LH5pphP?x288jvW<!Z?lk
zsRV>-C@-TfkgW6NKWO~{C5|J@feyGbPN%w0PT3)IhBNLxEpg)aDzIu5A_7FMv&i7}
zrrL}~mx967NKp5aH#mb|oQ62H>UDz1PJ{b7Bl89irRyzcZPpt|Z?Eg`sI^XN!(njq
zG;VYYPbC;VcWMZ_J3@^oKzqkL0>;yCz)FTdBMNr_+yf1F+FkPt)&RWP@oZOb1q5>%
z?VZ8aW`H%<cYs5o!+%0Lq~FmY{nQRASyvsQ-oe$*K(CUCD2lB0CZ$Yo^%CqIBq$JI
zF}?o?FDv(A5v9UF4%3L>PFm3QTjU8e5x#;Y;)$p!Jr-S3moy;Pf|OPWcQ2+a6Q7b$
zk^qme7F$(_=T1xyCzMnaIOj;lQiQMIgEXa-43J7)RxlteJVHF*l@d$JRg6_koIt_|
zfDzE6uUO9EuTUQ-Is$Inx$>(x7LBE(M7ZJtx^8()+|&un1IurG0VWbI3P9E9hgv5f
z?xlbD?6AU@Vd#sHwPuK;$$a1v9%R-s1@^~A;qISYXZL+#el|Dzlh8T>9&~hW-rBfj
zhV}(_p3m{?xDebN-xx2BY+No27tD!$uaAOcZQ7hL?}B_w>!yFhUvBO-zq#*kDohr;
zo^}nDx`xVK!=*FBCI8pWnFD`IVc^Xdo^}UI-ND_ya`#x-|GYT^eyoqb@xufE+2UyN
zZZYzt@5RTRkKOOKJn5P$`=_4>7Ww>nZ_Zn|QACATw))-~cza;C@6q7H!9C%!MLf~J
zK4wlIa6Lu2#61U2uLt+rJ2r1`+%8H#{r<kkyYFk-Z|?lNmv{0<tw1|#Q9mjRU$B;9
zUc)pp5y<sKKT->0zk_gXGBGCmKc7!By!vd{e*;{>)1*3@MS2}u#>vBrHQ->%&MRQt
zcJ<S5{#26rXR_w7S##8n7Y9cY(D6B}AsIcx+MG6Pbu488RA5c`9M;%pTARye%~fBU
z08c_jc2jEx0}%0q4r%BQ>Gedo$dW7pAFR`7LBgvmnjVfwni3A;0V-n~8L@Xp?VYgz
zho7g?PIwr}DNG@6owR_PxUixvCEy9eW`cxWft(qE8ggb7YRH)}sK*)|-Db-j+gk&N
zK=ZdDYkz<Oj<3JjocYAZc$)Ivxo&zgw)%hLd?Y>;_uMa=lOMU;3wO%yE_3pOo(ty8
z`t=fb?*B*nNML+zX2?2p0nrK|9)V?%rV2$bCg7F11aCDW)LNMGjX2^lowxzfnyzHh
z*a9cvZz?H`($#v6TG6+nMZA>_2uIa~{42(?Rso}MC8^3w3FT#c3$)T}MN2?&<Uk00
z$oT%kh<|0y1JzjJ!MU|_M{FmWM(>Wif91U^A2YOl>|j`5W%y{U4~d1Vo3k6UM+`K#
nmaJ;G{n7b{=a1>g@lC`a@nhdb)b=+SF-;fB{@yjO<;}kUrO*p{

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_846578.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_846578.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3a836967dfe78b439ee2e177ad49c618fbe45f7c
GIT binary patch
literal 3434
zcmd5;O>7&-6`t82?sB=L{%kpx{3F+mY@)3M$*LW=wj0^99U!)nv}qFy35X46C6OYz
z^6t|5=@MAE228?0NdX1KASjvw1)5eqxIl{}r?@?|hh8MmXoRT>2(T~eNsd~e=%szL
z<Wk#|Kx6dM!S2kPnK$oy^Ygx$KSZMng4C=1V){iHp~tM^C#fOqegwh_B8cD&ny8m}
z0(*5X%TEXx={W7#@rTw+!s$X<{r5Ijo8$<8M_6riOh_b51RbT@|5KBQdYFV-_f3X~
zbVr;}ntsW5&_skodZcMtUBGc=o0%P_(#319TzWY%o(u(GM38y-cmIOf6m7`sDb4xP
zUP<t3qrVUeXbO88zC^Git~M+bBu8@i8K@Ox2RR{!TLjcaP<14h7s3HsLEjq2oUkJk
z?moZD{Df3c93>sD%fZ}kR$6U^@A>~Smib+X1iWprwN8ZK`$BW>YQU>l)4`^Y?r4fl
z!BHK7t&8t*A?hej)WeQBxW)Rl1w86(nrRA7n-g>7`=Y;o7%iZ9XxwDmGv#Z=IVxl|
zYle!3J*}H@Oa*N|WyP_{PDos#oSmV{tZ7V{S~ig)G^CkYZc3*@#?T1#8dRDD(LOay
zc`Kh~*6e92n$}IzrlMsVrXFvn_)Us$P}Q={6wwp&3DcOPc%1V3tYxz8r6Fix<|9cX
zlQ1SHE#0;}7pVAVV%9b(o~HuX2b5cyNd?og3FVDEVBBE+7K@?2&!vC7J~(HXGuEt@
z)CZ@v<P5lG<i4g&={bAQGLwV0o}C?p+F)ilku%I}0{pX$+|a=6LIRo_)kM+&r(YO3
z{q-|1Ko32b@YN^hNMdMKv#i97Zszoic?`T@N7?!vWG;FVZ7aWBdb>JQiyn5bY<BKj
zi7&^iqt&@u=Lz@ajYxO3qx4O8Y)g$+Le)d-?a!~P&wmhES5LW@H)W+Pm86PT9s7WP
zB!AT%-H52=k<!QyxfNwusYQCL+K<V*<fp?wJNuKfwIc)TkpXvXQ&G$PrT)sk>gXfo
zh<j->5-p!8ohhF$ov(IPt#=RBBFEja4JA?}rIYTZjaI-y=<Z8PFBQL2xl|>86pru0
zOpw{bvTn#=r*u1S=8{3400OPE$peo~9F%VI3G_6QPfi5SoCIShK`UsZq4gFVhXPmN
z3j*}BGx)hgIA<@)ki$8=BTVuIF{ie+R}i7yC-i_V-<twzJ?<^WTcLtvHyNiDyEuE%
zDia<oMFS8G(MMWj7Q?`a;h8a*e}~=X>k`3{-a|xm!tbFU34Z+F#&(k>oX{jb2<pJ2
zz@_Off8<_CLjE{Fz)twSwA$cQj5rvTZo$@$_yhE96qm=hSqyIf6H*F+-r~M1x(1u9
z_mNaq&sixW*EfECv7=9)PwG0c`m(?g*?hLo;}YNsHXOKu2X%<~X>Atx;Z{nYqe{}q
z*{P|#k+-M_T#%fm3dEefkjSKFbgJqZ9RTcvm0E<_xALHz)i0Z-VS1rNLv_Z8D}e)u
z-=R25agHj6nVL$};qY~HKR7}0g6E9IF6BKoF#A}a8jM@>G&Hdx)~ArUXhV|k=9lu{
zpQ{|Z?QC>*t(;gsQId+dI8@XiOv+bES1QAmoA<64@kaN7YDaana-*bd?eAWBWBHAu
zvLT1dYDv8ptH&wC+|rmk>fYRxqo2ypt;^3<J8E*TJGvF?tY|B_<y@`1e?8XkUIpCZ
zncLsnjP<M?9(r)>LD$;I<%d%bZ>;scQj5L1CcpYbI9$D1CF{a*z^H#^xg=LQ?nS&>
zWTXAS-=dNj+G$5>XK|=}x^%j7b}e#bO*mqH3FelBznR#XV7s;ZTQ5>msPJF!egcn{
zz-`vz9KpTUXf0s78EekotAT?!h4Xz5fCG0{i|8kzXF}rxXuN;^fjNLXi1Y=}Fu~6-
zH!*-FHqk<GGb18@0W|KJ<|YNuq$Zlo;-7>Wn!{pO8Q*40zs(q!3duat;6@J-{Z=Ze
zQ<2yU5Q-67x9mhxv-HH!He2*y%W$xADp(nb3+7jtwg@*q$(fAWyr_wXsbuO_K4V*y
zn;)Xw0{rvCP{Kcd3QG9rN1z<B7<)G3upWl(o;!gn)Vu~t-+;eyYi`Bb-K&39k<wP~
zE%jDjtK#?je<gkx{blq~_=0=!NqB$dom%*ydvWXVQTJ-``nu5b|D(MlBelyN_aZNj
zr=CtfF8=!OPcFox^|cJuUl_ElUJhj7F_ni036*`x^tO^ur)(Mq_Oxt$e%5Eh*MW=;
zlZxJp%i9ZY?P#RF9f>I;Lw=4t?D|^E=duRLXY>o^cVT_mrEIaM-wuy4evH&Vq3EB{
zp)D-k?OE#C;Z*$Phr_==_nUK{ArN<Y#Hn86(?bXF(aPnOYs=Sm5Qy*Rz2YPB6ZK<t
cm$mG^h!Ku{rVik)rv#(6qqSJyQp9uQUlyp|hX4Qo

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_964700.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_964700.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d8e1766aae23cdde8ce45344661b0dee075613b7
GIT binary patch
literal 3577
zcmd5<O>7&-6`t8${&PuLvRdmWF<r&3*;JPGQ_C)F2bL6DNE9W812<9xEEw)e;_p(k
z%ZO5!0Bsns2p`CtOe1KkV_NB813`W0rD%&>auGwfHl`|IAinsfL@5H~)Hh4+YO4rn
zeCtp%^WK};_ul-xZ=OCEML&Xa`}Q9ef9pl)OU78m-6D4X2*h0^BN?aBY_rF+*yOnk
zKPzCQ;H0U?`n1{0oFXKH|1D$OJSX$FgpJm~tVb3Ulx+L{JlUoAWcR^i^KRL5OPKZB
zUU_e!*#L)>fUP&Uf}_6YOzkxFj7_~g{-!h?w-&|3E~q@z-TRm=P=~fzlAJ~D^)lXQ
zjThaHnZn)-i;}V7+GuGgdJJT^4Q>@|t-=Ju!`h<P@ECjw<`jJnT~6Ox$_%gJletZP
zgZT+1>1+1RR=1gh4#D=?Z@`cFQ4Bb29&kKHK*pPby@H@af5<jv6Ujq1X%j}!5ZF3x
z+alN&P1_*@!+!Al_9N`@sNGg$6Gqqw8NN-IwF?-nps0JAuuWdDW<@zFWMW#1x>S8p
zAyG_)SRtWBF=6K%^;1qyQ-6-A3nZ425;AqiNG!XcP$8|xWEfScXC6p>c!=^^KEt%>
zi_}H5C8AT8rmIAWwo&{Z#WOUh=_Da5Qb8i>GR4!BS8^I*heUZM5#nlEqwa!~(}`v}
zKs^QNgR~k?QLX?6K8z765KWh<XQd@~ub8tn773Ak<-2zWmQ|9{a<RBFuo#P{z%@17
zA6rne`hZ5_1G<vQ4FETg9+I*u$w=Uzu4V^M<yIsRw^%8zg45^DjEtT>4I{KmvZl{3
z%hF&jrfE`2Az39&j)4~*sM?>PDWPxLQ9!Kpm-}nD;qNYuZv%I(e6D)6=4k{XrHQ9v
zsM=9A>WBL3V&A%47k^f|{3H;r9xI<MO*{*=RTjz%)%o?2Pqas&;m4sf_0XA5$-~tL
ztBufD>B<vdTXnSV>n@FL`-7De<rCHR+ObFe-lm<=@@VBk`9iIurrqmm1p2^QsIw-N
zv+$v5cIl%Zm*20A)WxHv%iDtc_T-Jpwd>Vit&jXeIJpb%BZ>>;N33@fMbDFL+!^33
zq)ZryfYb>C2091`tV=E9)JfPL&l^bQEX=uy;Tv|{_7!VfYlCsNtNV&IUPK4moMTYI
z6?xqb|ARu^*b6v87cCPq4?4pZx7S-XS3$RK2XXSC@Z+sD+o0ewc*B*NK!~*Kot92n
zF!+y=>@r-?x_{%czPgEZcw3q!$&O)PNp|fM01G}J`M%WB_zQ%Q-eZj$+&pF~0BQyJ
z?j=jU*UKL3OYj@udDFYm0$a@9Gx%96!=U3D>O+G_!^<2-GhnGHEATUD8D5m>=j`&V
zo}3zrut1A6<0V3rrF?=YT4bnyB9h4F@_Iy9vYJW~2o$UyzO2OH<|z?5kpXc+%|@m#
ztiBvc$H;<0BKl%18_57(W%8LwES*-D6*+Q};;4ynfMM){M#Gd(D_Ovz#aK?EVnTy>
z&gzMUyqedj-$A<otm2E*51^p0Na;jMp?oHhr9maFfO%cg5~~VzH!*^Svr0jia$u84
z>bx{W{numZyz)9BDu7fxFUP1`Rz6I`6%!Sxy9s_#H|Ybfnt_GiBJ3VeykfelvF&YQ
z7>O`>(1|qUEE|QYeFaSkZ3jYYOO@sF@}2Xw!7l>6Tf*el%aaXg1HDfI!OCmp*B${C
z6f0BZsXNnam<a(DZcLOem6o=>;$!cTy7x%!P{Z3(y7Vk`sCv9M_`8euE;f2zt+&6r
zdHr$!c)fr8&zBngmm8rg02?0f+UU(+Z-<U-^$gs{pJ-b{?`&OtZ|j|zt(n=auJ;?E
zxh?P9Ghe9EUG9GD>jr27g=g=b{k!j#ZSS%5!Sz?_-k*X)&A-ZId9r%-&YLC|esZ|y
z-=fFo|CUGo<2&srD3&I_?bxHg)7Yc?*Tcsrc>Zs^YeMwIfwv3WId<B+e}R1CE=r){
z|IAEeNT?jI^Z_{uyyq=x5$iSp8GAVmXK)6D?s+imc#GLh-&bV!3t8hG)@&Fl3M^1%
z&kwMMW&8qbb2+Tp@Kba{#(`w-53t6)(Aqo>Yc{|@Zs!GSK4#58*C6qje$KZ3IfFnl
z3{8|HBhXQotgk>A2XsZ#rFcwJq(O3m4LBr2PG;E2j6?<Ub5jjuF>;nLyf@=2>Z2aO
zp?q4`Ak`S8+{z$fPzl5k2!^4DS{Q+TL}TxXooX~AwaxU$kr$9RVA42L?K5af=xL~}
zbmf~M@`o!u<sQfY@cM~QT@S?v;v?V1(%3U!XZ3@Iud6in^rfSvD{F7nh3@~K**jho
z>?lo>pTJV0qPc_QG|)8M1jAEl$O-e1S5dD;5q5HvPbPHg1B}&lrH~^nBz)I|c<M3}
zM|1nl-J*f!2}lcSTK+vUtu=Sodp@Je`LuG8Tm!A_KME}c%?^(-{t^ZMiNt@Q-W@mM
zytlh=bnkGTIJy%=kU!0p=e`z!+vO1#Y|2j`#$xsLyHg)c?I0l6^JaIy^I`9U-d!fy
Z{UyTU*TGY`<0~1X@X<ynawA|m^B)Uy`bq!*

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_965300.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_965300.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0214f1c040675c8e5b8583d7df8c7b1ad4e170e4
GIT binary patch
literal 3663
zcmd58TWA~E_1<}DB#kV|j_ufq8@0)LqhuS$PU0kxO`B{|vrXdCO<)uEF-$dMTe754
z?u=sDj6hiemD+7B(*>)4URdbvCeSUkltQ7<kNs$WViY#w)`f-LAAb~_^_D_^+H*$_
zPZD=YD3l(!uXFCX=W*{j=l(eq3Lt<tQt!_W`4RerE!rTqCR?j8SwT9|aT-lEM?8hy
zHJ9P11dI%va?feAHb<Q^gp~3)j;*FSoxda8Z4st?x~vNZN=2UDsf&hxTF|9C;#8m`
z-**R11vz8{J0~a$IPTwI?32`Y{_?k8xui}eB+qed&O_V!6UR)kahsNc^^>6EyDfTA
zawLaa1V<Eo9v<OI4ul+W2HPEU$}78ty~o{c$tub=xVi~Cc6dj;%X9;{fWBvdEWhLT
zNZZM=7<gKzEdpOL-~=3g4lu=_gB%~jIRTfVcuv~kDjdZL>ij*StwAcx^mrV;*shMR
zLXPZ&oDlQYVhA*m-<%P=p5Ebl9a+csI+hf>Jd(N}*MY54y-(wuE=OQ?cC-lpFMaFa
z$9x@mK3^BXTTa-0T~QBb-wswroTwALC$(=0Bj(!$6!%RM_6*{fin_g!GiKVnagGWZ
z&6=a4Y0nx2HV9fFX~i*NPcyDi&Q8-nj+iq<%cx16ii-v@E$W+2o0@%WjEY3d&KOkE
znxg<{9hgkYTlow-+n$9z)=gql(Xvfq#JefJPVo(@ST;%OhFVaGIZyE<<&B(0*bAp(
zE~%>->IZ^q*&6T)Dm#uhr>CiqFw>T+9+e7e&L$QcZ)s_Z^0zcX1!CDcl@?m01(#&8
zcM^LF{&{U=-XwEYPD>agvsz*f)HSnT)n<&WJz|l>h;3wYBd{7tkEvOcWK_`EHnXEg
zatkV;TT3-zf+45JPaHdX6ex5+ZEv5R*VWOSW?AZ-L9#}g41*p%Xx7&uca+fQG75#4
zu2innzFb%KmM%6Ty)|Vma-j6;dN8zfs&cCOdiB+JUi-z=+fxsMM@tvh!@H{AuHo9r
zkHY)Qd?Vcb)@v&_mT%N<uD)3BJ+u}+R2CZHo~l+Uz$DsTy|FyBx@#@^LRngm_N??T
z_t*MX^$+$xh>kyuo?eTd{{2_}aOii3>d}j3sUa&>sn)j~UX%A#gv}s|9Qa&8pv7=y
zxVo!$?m^&7rB|3%Co3nHUaq`c>#12kAE*cS|2JBFv5ufrw7+&>c?i^(150v6uJ$nl
zK9UbV3WI)I;7CMqfegTyXeBy^Lozfsk<WsgSCE5JomB49-L731ij3~%Zfz-YfNxi~
zZ8oTH4yR)#vz=W3(+S^Ysg^GaHoI~cQcSZaz}Zeqq8)4#ZAgwyNOiSm+oL12Q<=V9
zFeFECq`5(OUA}K3op0Os2DYPZPKTd%HHY*sf^|J@{Pw7KPKML4BSGSAl_`uk;7aXO
z*0`Udt0*o_Zu|=%i4aDMr@momcAgk9J()4GR?^JICS#erWyi9n9Wx3E!_Z@`A{;w7
ze*Dt;SUQ<W+VN(p5=cMjM0T@|x!TPP@c<1Z%&eW9$(wl#GRmx$GpKMYY0Og*vP)u?
z1|VYX1vQ<VGbo=)W~tN+SsKn71zXLT^9E7PX?4sEMJhG3P~1ljb|k$7Gm5XcvMFA0
zC0pzUTls^$z&0q}ASdID49$8Ux)N&0{w1ZN{J5)huAzjMCMpvU+klfQQkhgw)Vh~X
z*X1D~1{D@hw=a~=m2R%fp@;JBHF<X}T9@~f&VAYyeQWq(_rbO9gYQP`-G|?Oz20@A
zGyyzS-;d7R7p~qPxLOykmd~sUL$#YVeNEU8GRmWk-oBOV%hzk#&%V<L1RF}Y5$XSX
zP!grhE~IpqN0-Jc<JA-8v-gDo@*=34fYt$a*KXwe(T$uWDte3a4pE|G9sX&alDxzF
zfR959Tg2P3;B0@OI0s@)7terjPl?+}n)F=Kc#kx`9Wg}#UN+Kw&mawhb<b{_=#eIN
zq_NK-(&cB6#yyv9K94kCN16=ZE2R6GG>64xU~+@GeuL#5sGWITgPJet#;s(+AS}7j
zplw*Tn$Rpm9o=9q_hQDpi(}r!@wh;au-)tnpl1pDHM(IC_fsD+tbE$GC|4Mz+yb=1
z7>v*g$6$n3I1b}+i+ylARk;~g5my~g0VS7U)7PL`A3|3`A9qDc6HuB0;iWy5J**tA
z4*y#GZRl5_2mZ6A^Pl>At3Rmw2TJEZ9@<x$C|_9<2LFF{Z^}sNDNVX@7soR{`P*++
z|MB4mXX7E)mt+(yq~T`9I+BL3RUZB#RBq1*^B3h)Nt^m14_dZS$dOhey9P<tBvf>N
zX6{9}j-$cmU8pl=T7M6@f}4((&tyzJpEk~tYj7&7kJk60+vG9EpCIKgDD+pfcT+-~
z{KLW9gPUA0eyI^Z{L8)X?fs00`4*2j#l=248o`6riz}CxFK;54uI9Jcur-Eo=riRA
S?s=qR6y8_wiro&n^8XFfTL>Hg

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_973282.cpython-312.pyc b/src/temp/gen/__pycache__/l2_norm_triton1.py_gen_triton_code_973282.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..02a39102e1cd476a3b47e2d617125a53590599da
GIT binary patch
literal 3741
zcmd6pUu+vm8Nhee>-E}eJO7%bX&Rbvki<Y5?BvLu+B=j#y_CDus8G=oI9Xfo#<632
z-Puj!gf-e6l^Tl&JK`ZmfRvMv4oDtS3DG{@A;cl^Qsat7Ly%6od&yh49MXvw_-6el
zd%?i<jj`shzxlpzzS;TB{L$z0Fp&PR{;S20-3;?S?bH)rYaIUu8e5Fa$SBFoS8Ftn
ztUjA^%yWoQP{PtvpIWVDR^bxfPma;v0xLW2aXYm?=3O$UFp1WGmy?}}Tjrbpx4_G;
zd)&OI;gxWYnHO0`5gU5Ft0>?;q-w*&H8uD3>DMCRXnj$1*a_JI`S@c*7pOy7O$oN%
zI;mx}Q~N*1+a$RYiF!*$hI6N;A?Gp}gE!bUu(bvPIl(s9?n`a5;fx`@u82tpjb@{<
z%Qkeo4VU3q0!ulMO>2{lFa*Ozts5TMvCHkyHA71Hs<plR@3tEe5DoazHRaqk%YM72
zYTIzjX!j%<Zkzrl8=mNBrorH-?+x2tu<f;M`)sz)G?|I)k*`I-XLxq`dIS)&$^=|t
zOgAflh*Q>AGfJ$kDZmmgC232<sp^Xg1_4gW#<c*#bmIadVf7^OWUv~;QYsRc2`^zO
z9aD&NO~I;0TnkB6(#JxCgIWe@l{mEJ6jiD(5+~N~V4XNMUBybkPtYxbzD>NEj^nZt
z$wsicLQt4El#GVyh7le{s1-4)CL`*?f~M#i@zFs|m#`km=$JU}O4#y_pe*6ArppAa
zYII-vKau`%V{}EuOIk*XDx-^1bO}6C(<4$$N$aB;j*jX|Dl-bb(PSu+R&go<Zs}?|
zcrmjYf#F&=5>>(17bnI-FNEM9(i5qRFRaLsU`Eok$dZE7N)iu%4=%{sQz%U417Azw
z_5AClV8z#GzH-ohW-G86C{31DD(yq&YeziO*;V4V&zH}Rl+TQq*FNGI(N`GG4;N>P
zFaCV$tykZC^@(THoZc6^N^SYCnlm8a77MPttLWPn%dKDB``n}G6JhG9aHT9<`Q7bz
z6YnG{!gX^JG>hI1DgSwM`oQBY4CV)m9i`wCPoFsrD!l%}M1G?1QvRh<M@jo}Pepvr
zoPjBB&&Et%FeeW<{{GeVs~gvgU8OIT+Xl<N!C&;2edBx5Bl*wV^f4@r!F{wi3kB?$
zqA%lg)J_w6qAljkz~~lZFo_0r;GbGLVU5f#O@O*qkgJ{Ax(u!BsLN43O-PhuVVp+&
zR02XZm6uTuNH+NLAGCg#633C_KnGkIr&Gfxr|gh9!<i6IOPu(<2CQ0xhyYO=EHZe#
zr9PwCrC@M%5;Xke4bI?~W*|=OdV?Uc)8Kx>$h^Tr>H3+oKI;vncQ*8Q)mtaE;V`%b
z8aKLyrxJ{wJ2eE|U7^kspuJ-O0psa6U?oGK5rsPd?t!K|?XLR;YXDyDdUk5J0)jcs
z_Re7IGr*ebo4}#);XffA((mYyerku5tZR;N|L|IOpkK*G6-CziQ&P6Sb_w<m6BG!r
znBIScmzBHms8VGhhiOD`H!bM;E%F3f2w%k#@kG_M9*-@n%NmetQOYQUyBk+lh*wD}
zDS$^ri?1ofb33j_l1e%ToO7h&X~I|WL0ZyE7D%P8C>RhH2@%h?q~x-41!ENxCy+1-
zU<CB&tCn;43)BaSj)2>CuKX&F$Kq)z8L7H}u2~)vH+91D!15bkfQf{Q0Z=vip*9GJ
z`{^HEJFM^}82T(^trg;EGVi&B``Ptuk^O;Dyz?j5*?q6CFqfbEVR!=p54yUyZf@Q*
z!~24}z~}i5TnuhaY)+Iyo0lrW1#@y=^iq(l&zO_u9guHp-|}zzE3N(J*Y^D_#i>%y
z)1HxX&q$?bw0vf??EkVkd*E*?4*m2iPkV#q-r(LqrFXpIf8Lx0KQ<=b_}+p4Y-y}?
zrxblW@WP|+NA9=V9`{UF{4<XQi+uiqm=}xJOQ`tD_P|?1Zw~DZJRE*7{6x595zpt}
z7&m7QxW1BH=AHwmH-h_}U0b&{Z<VAUeP`bz?t5GITf6@*@=pG!9cX7Q>iZSpGuBef
ztC&V63b~Q!M`~g0w-Bx^CeGyk=krO1SD)?rZ-Og$n$$*fNN-@vIC*%n1{_S;c^Qn`
zu73K>pGq?SOx7GWYmUb8;^0UEIzELpB%^0oo6}~kfu$UP3akmA!W#QbYjfGGxf*K|
z;7Q2HZfeb703x37Ar1W@y`BgcU6v)_gLV2WNQk<k>5-_UDUl!^qB6FTki9cz?~DgH
z{5+L*!ox^TV+wieqy^l>g%xc%2~QX{8zk&1<ZK9P$k{QdA!o;-9&dJZTP=5NZw(v<
z&EJ5m{T>Q9zW!Eo_9HLjX({yPd+Ev89{jcQq3?n3iTh=9>H~LY@pi@CV@|!-cfp+9
zxK`%Q{r^ZG35>VH3|ogT;IjgVL$EB;Ql;p{B)l@0;jKo5dJ9v&5l14f6E`4Q)0J!n
zTi_)84JEBnx>~PMEBaQnh*;f#NK8%2zho?HRWJ&dQ>wh2R9?n6K`Xshv?LTq4usJA
zjQ1~$@2|{xpc*UOKevAFi0wu*=<U$Em*2VkAw%284u<tshmXbwkgs@UYi@Jyh=Jzz
mvQ_PMK0N>6{4pIlzJVCz`_Ow4b^J|6Ov{Cezkgk{y!jU#xeMw5

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_114093.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_114093.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b53fb908fd5af6c01c10e67283e9f95f79ed81c0
GIT binary patch
literal 3354
zcmbsrTWlN0arf@{Jia8_)WcNZMy_nek!0C!ng*`wSc?3JtrSR;Hgt;1iMNzU@zuMN
zYzar;T(}S!2atrI5Yrln`cv4IfZAw*_A~$ek)ot#w@x7-{n1AOIr2vl<fF59Buz^S
z(xMA;c4lXGW_EUF_Wt7cdl8JUuKjM}fd`?_8Brgu8nW|SjL;HNkb*NPZqGQ5Et<>n
zaRDQO)0Uq4R(n=BBBXs!uQ5vDzh+(7e?93`95;oPnxeQ1^twTZJ1Hp6n?l?}yozh`
z7((jL6n9)yJaHd~2ugSEwM<0fOLD-A?&T@oRdI#4*W*FZ;9=4$Tx}&pg6ZzPyBc1#
zS~h$3N|06(Qhclax^C^6O9*5Su=QDp+6qLMjr4JQZiaR3_4(&^)Y&ZrZlZVu^hD~s
zc-st)1-IDtQR;mCV*C~93Uv-k7hZXJn0n7$er@PgiLEB!o*RSR8awk&+PY)C<_maJ
zJ9k485CzwLEqV-R(QCMhqTw~fSqDNzpAOI-hR5(3?)rI$(NBK?e81s0e3PJ6!|!<j
z7iR%41}w}8SkORC)?sD$Fc7nq<P6T>0S1g<l2bT^Ulmqr(zCFo7;4hu-mL>6Bh)xU
zi-DVD_p^u%I3L&&3<toV5!lyaYm=6Js=#P9TIyMZ(R*_Onn5wgsLBEy<F;7DRaR;-
z&RVi@Cl$tIjZlX+Ar}aBX}X$Hh(=xcWKtu#M#ZsAJ~1iTY)4*Ih#GTJPR~$pLCue=
za#l(y)S=3`aY6%Gd6G!>j)JaIA(NMZsp)x@#KII`q5Nx8Iuipk*CpH7^<DG~74uVi
zgV{vPs4Rt4fdQ5TlrMm7XHHV{*EBXK@)?bKa#LAJm$gZa;uPh9M|ogSXDTN#r}$|(
z1Lp%1Kxtvnb9nFg@{Rs$d391N$O+OvAtxqfeIlRhmB&d=@7L5szfQ7+exUkmXVD=7
zS|P8IzQT+I>k^z$&oh@4A`J|jKJmR%z@g4bqUK0O{Wh3onV|gxfQcTrBhf$KTkfsk
z4R5D8RP~3=5esaFB9+Ku(7gE2-@0(B;#q#_ul~Lgu8O|W%&qTNTf+;}i^oet3`s6N
zR~p)kwB0`W;L!8yhn}w<j8xmYD${F`o@&R@JI}1OzgX>vRuUC&HTrBd5`FA<MFWqJ
zt1VC(c^pFFgG)yjk5+o#?`K*%Zl8M)?Ol)dRu8s6(Q;&Ya;^R3ZY^CkE$2atKRAD(
zd|~0omBgpMXCL*WK>rS$5G9(+T!aOy8H_<v&Y?Lx=U8ek%4S)%8AchEagx(*0$`dY
z!LFg;Rj%F)id<8%>{D`OTt@$sK3?J9b(9<>TtZ1+5pKGRg5GFwhR^}Nu!do9X?D6@
zLvhrb!PoGe4L<)3`}gNJ_Om#Z9V<1@Ff#bpQOq?;g~XI1-{q)7(PyB}oeG&wCCC<n
z3rIA2F?h|w%1UDAMF79#zwui5GRL}d8P_{c5`#fJ8sn(bt^hEtq^4s66|zK^t-7@<
zm}P**>>V~uQ#}F*b)U(|*)c^Pob9-#%7p?^`_4f7ku%yLAU5j-wyh1ozfE*I^5LNm
z4lTcVC;1!cUV5YB<@NR<wFh`lbvOsKpTvaKqm&$VC7~(l120g=EK&2CRf*JTx1yNy
zNr$0MyRs<{t%3^U&=)P|HI_~9yaO%ctnIX`=BoM<Fb3eSy$|3^6G6q!UoBs)^ep$R
zb;SO7@K0U$yFQx!#6N0|JoE<VkC%@xOk35tN`9ZcoBe3y6Ys0$&}Pd4^U`PHkU9KN
z@Rm;BxLkDys%{bByua*UkT=}zPvhdex9nXQxa9|_Cn)TJU+d$r*WuibAYahDWJQL$
zB`GUIE0ng*f}2|=02RJzkQxIp{?*+_A72^!;SXY%3bLNhBw(>I*kxID`zt_}Pzn{{
zseYS1ueiD13~X@qbSUx$pJsb@jrzxgffVix@D%?4)*~=I27>f+K>BTkfKtx_prTGR
zT}r?+Ck+7OFk>*;X2wZ)71{k!M<SEY5lB~;O0=mAyns$EHA|!{)QmJiWJP6_VdpL6
zfSm#dEDN=cKdnht!l@TP@Fz_8Z2%_P41~<{+ddSD-hd1!jr`Nwvd~lM+3<b~F1_pU
zhi`rG)~~Oc=Sx@Ch0gz0%#D0ubJV)nSi5=>?5KSJXwdehF9Xl=6g*ngUB}b_<MZj1
zPCbcyPSeTtf@&85pUUZW5Fkf#a+XNalX6f`G3BQj_$~u13KZ+`zLF$$%b5(s4Zb6I
zc}$~xR=#eXo{Dx5rSW`5xr^-5tW|n8uS{jgp!y~#VjW2P7l3UZWBfVt{T=x~L(xs_
zn(MsLxy>EL-P-~7v|KJ<-VQR#dT1Ec!l+i%5?=Bx`o0JQwZkLMXYctDZo$EYp=|`y
za(IVL+sBaLE6sk)cU1jB_Qr-7XfM6dRI2xyOZ9I}*Hra}=8u(+-FgmQXtAU8o%zA?
zV5PgF-8t~7*taGO-{<cQ{ki-8#XkfdoH)0B;@rlG;SFJUP3+rgMcDs^yAy{W4PzAS
M-UuAIAzI=14<1$X!vFvP

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_11496.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_11496.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3144bc0bd36dc8c1f953e41145b0a41e111927f5
GIT binary patch
literal 2632
zcmbtVT}%{L6u$Gj%j}<vKoz8cl#p(1Av9pyXibg$C>8pkX$46p)13hpcX!r1!wO`!
zE{R4qePDeO+Xt;_(ppSglO|Qu2OdrO;s%?NTbhvQ3vX1~mp=8}nVsDgX|U<t>^<k)
z^K<V#_k3r54g@3wqw3N(<M%{_9#g>`LXp|L3CvZbB9)1wVTUrqj4iVXZkT6~#!T38
zTvvyxtj16HpIxJp%5A?s%B%cEezE8<>;Zo-*m_}IxX2Gzl};dDM8gt`G^u3kn`R=O
zb?P}t#FNK|d*lHkcFV_lj&w)8#ekI1J8|&eOf&ROCd|&5U|p_ERc5iM&v<vRWJ{J+
z6_$KCmdmM(B`y~C%1ArfdP=rF3t2wM0Q@eoqwHP?Xt6VJpBc(Y&bo?<8qU>Z{1)?^
zpWter^W$AjCQxxUsEn<{@|SKLtgx)ib<xENSV8v|44Os}ZV=N1tkc{^1j3qeBBiiC
zhLwaIQ;DcxB{`-MKCUY&5e!quS|mi60m6MSX_8<<F>!24Hegn@sV(v}@#&LhNm(IG
zWBTrxJ_!+0F;z}DBuPYlbkqRRp-CbYcSxC-cxW`rFjGbdT$`R9f1heUuj8{uN{MRi
z<4W|bVvg&{H<U3gX|@|U+HPuzR69uR#h51C%}D8n)|Q%<VO@q>n0iu<>Z&GpbacLR
z02D+#tKp;;$Mvuy&Ast0Oj-129SVfz2XX@o&CC9M*`8H@utItQx}n@q{@g<Aa-cce
zyShbQ3s>hqT<E^pywG<=zVS(+wyO~Cx+~s4x72d?{JqeFw!+(|3*pn*{*`b|KE0sc
zJhCu$<-*qug_k-D;m+^V_m!oZyJL4QJZLDqb*d0PmF;`tmF7J;PhMK~He`>i^5W%V
zv&ZH>$}7L{dp6<3C|U_B+8}J`{qzFRGpV~hCbj|5gvZsEsoM%Lt1?MOEd!F>p*)er
zjItH`ZPUms_BOXj&kiHQRm9t-xdGe&g#RHP?|5VclNOjgEWw61XYm#{5q4M0ROMap
z{fk~G>G>V}x7U~bAv?Fl#UiX3Wbr3a#4||v=%lI;E}EK*utZSJ>6Au9RZGXB8m1L%
zBRs;EF&C*K0w6g$j+>~u5hmh~8M2aAVsYi;xJCqkhMFXvQNX>~aexRj8rBUP14MMt
z9udm{?Knhqa78%4DdESUB^Y#j2c?*1k$BEyC6&@Jehs9T;a^14YM^?4BscP9&sY6l
z^#9s&u+VbwQOmp6T9>+(1IH<Rs^`z-&MdUvXnnXh@<Z*9jdvQC(vJdzppruK`*ZsN
zB<Y8Bt+%!B61Ngdy^o~#vq#tb)%o6szJ_e~Dlg4-&YoED23Nd3nCAnzKweq)?s=B?
z%}Y5c-|=YxtV(RCb|qB%SGY<LH|mf-l<mh2aPBDlOM{}qM$>1&TtzXIfzR^@;4Q;s
zDk>goi*=iChJ$J;R&gl~FfMW|q_T%VR=NKjho^BY1hpazM%eXTAmP_xB0f_yOgX9;
z(Ct9c1Z(T>ZBe`lbwl5Z2+_En)FM3bV9l6}n+DWDY(}H4T9wB&Ma8dznL$%QAKZEF
z8heLgTTL6XQ*>QmL(gQ4z?4O6!Cl$D4L_>eHw*7M*ZV{Y=Ubs~O3m<ujZN2wt_^*D
zCfheRP~hud)Xa<gyR(D#OGW&+8TKKfa|{x4Xj>dUY?JVDAYPZlw388TB4(1RsGc-T
zZ7PMGn&)Ck)6N5?hbKNK2lAL6S8pME8|T8_LkV4-jBAJSVX&hgRbw2c4US=$$H@O1
z3jB`ttuda<^|SRGYz?z_BS=3ZCvqn?LR8vSl%9q`+T;-HcdXjNOelYJ0|B|Qdy|sQ
ZPQ(PBdh40pe{?e_^vZIuW!7h(<R5M{H!1)C

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_14792.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_14792.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..270ae905b25f2b4fa37b9abc7a9d0aba0f385d9e
GIT binary patch
literal 3754
zcmbsrTTC3+_0D4-?Ck6=%gYcyYZrTM7mVvTZRFy{V4K7Nw}Qsa+R|jaGYbp*^2|U0
z&89=;$gCojO{L0<o63AbKq^)%)%`>Hiqs!()@|r5t&rj$zKTOCwN*cQ?#vDhnAC}S
zwR`S8&wK8<=bSr#;CUZ{@%PaW2h=KrJ|l=dT$RPf&nSfMA_+-U5=E_<ic%&{r<f>9
zA(<L9?bxc;EYUJM=-*Bwn8fT(kFyeco1L#HL_LyA_DXKq3v|zIHd-b7B=68Mgp^xS
zRg{x_Q9q4jG}!d)4l*bE<23O0KFgE11^+x_(W61IP(`HY=?Wzz2L}&7tF`G>*xa-E
zSqV8Tha`R>VB1#rzlK1zme9u`I`a@kG6qjrvlH6Z?fIuxbV;;>w^6hn?9|)5Xu}v4
z39S+J9_+dB`qhprLbtu>i8=4V4Kn1U8>4W#yGW~e06tVsON`h<qHGUyzUN5No06RF
z)4k)6DGm+RwzxG*l<u`7JPzcXU+46yucTMCO^?_8x_bz`&joZ|_n51oV{dZe9mB!(
z?qC55_BK7+TIE6xt*>vB*EhZ1TIH&Bq=%qt(7UvR;&da~ohC8Rs|l6RD^!M1Nu11B
zg>}l3aOkn7o@vdY=h~)MqX%~E7TmtiIOIdF)^Sp2?o>jhhxOV8#=e7GokMz;%GPW2
zI#a$<UlbZc5w=Gm>9$6)FG689C8|Ra52m#w_GOh!zaplDgoNFqBBuLg97u_yLM)Tk
z68*!OVHI<!;iQ(xCS@TL$80hqO4y}p8AXoNW2zf7SBEvCqbZ3|K?NwuqdV|1%w>kP
zO{N1G!|vW!qZgrm+?_(##aB8N;<!RG7`w6wNk~~!8oM*`xC*E>15QpsaB~JcA&r`R
zb54WTmPc7lQL&e7PgaVDSf)g^9_E9)j(_*HzMWBq)T|hjTL;A0kf;r0(%%yM<+RqS
zDzR2gPGwsGYpv{{LD<x6MwMH#V*=0xh=G<#LkJ~VXgl-LcTWQYyN6^YEhiPy+DJmH
z$Kg5*^hFcmgHzr4?&6`cf3I<I#UF5Bt9-a{EiZha+#j1Bo2{O`Tt0B7#Gf%PEq@tf
zm9Htp^8%5mES~VePx<{Nem_`wXZoGl_+o$gK>L!X%y$`=R{j@rHC$5|xhKxl7W?1-
z$?X18!%GjFmuf${wbbzY){lEiFGoua(Ng%jab-CeF2wKsaE2{jdp|SFmFmB}7=PIJ
zQQO074>BKfrL(=I`rcBo&*)m^s(*f{&{sH`KVN)frt`x?Gnc1@5_i(*T=Dv*Jb6!n
zn>q5>d(?Pkg>~QQn&_JRap6```xAR)144$BIs(Ym#hm?<)PdP$;}Ft2=nnO~PMb%0
zDo$&lW{tsJJLUpyza%-@QFXg?qdb*|e)2W!F%pww;qRKHCP5QkU2o2<!TWCw-EH+I
zozdw*&Zch7lFRP@U&429@|ox8@6O-UCy~-w-L>GEuk<Dg=}a$*czZA#8<xa58oMNI
zEGuKTB#$Iw^4dZ0Ge%mCJxIW6;J+~d;1~3BFNfCQLx%*wZhDU3JFgui$N&eCWHxhK
zK2C#!OwU#;iO|?>6(u+=B}O6)G(lMt%~UdzN+tPo&@hy5z>K};l49znB({$?zO9Ja
ztgN)0OJ-tXQf-HY#X1Rs>Ine<G|&h2_g|QPVdjn5zQxF#P;UI*O5=eYl&1{UcwRXI
z@@6kqNKhiQ!$miCK~IehU>CF#DUCgG=(JkfS?n5@m5gfk4eYl1Ys9lv38Vp%){7bF
zaa;B<+Yg;sCGGC5x6D3g9nDiYkn$biG{ay06@Y&kXoU|?UC&=HHqSIaYK;80?sxkh
z>{}Xn%=bW(@CBz%<WCeviX)Hen-}C?r{+>immd4B7#*vDka2mLfG=puf8OYP!ulr9
zOuWAA4J>;(fKz;)FNkIDp6zRH%9r;Q+TP<qYHJBPf#pyG{QgnLx!mh}kUwa=W=0Kr
z1tBFS(t@z|eQ<cq0H6^6m7@Uq|1<aWlkS^8I8UB8QOhJ_K-?Upy3PJ@4;FV(0_7mV
zZa^yKC}(BED^J@glw)*ekm&3f_BS9&xpTminE%@jOYG<fQr6WIq1QryDeV9-r^%`&
z#6%Td5lEHegz@qY#%W-Xo5ZeIGLx1gEcPg}3h%WFxsn){$pa|~1F|S7XF*IQp&;2{
zB}1*bL*=;|Q3W#rm5U&Al?dMeU?B5~*Zrt|?*!z+<fSLR>Oym|x$HXx*T3)J{WquI
z{N;7y@?>|3ZThNWUgWPadd!QB>`_j^J_@NP9JG9CNy3N7Fub_fYp)dY>4=%Zgodl&
z+eFpm(X3(>1(Qf?RuCXZ(qc*$gst*W+KBPf1iVN9i2|lH%qVgkd&OiD;-<=&5pSxP
zfe#<^^q8}PDD-EN(j2nNw$d3=8EH5vw=2D1h;%viZvfUAilRP4{=XppuW0Wo<+;-|
z(X>wQqrSNwMuE`Ojr@)E8iLhUu+QrN+h7pwx1`!@sbHaF9l<nHvq7fylZf?Cj(@^5
zF7rY1oQDY5Gx;M&l`cA~^v{laS@wmdj^&TNciiY$<{BqooNCXv7Y`TJ+1fvHEsxmF
z2h3u}!^00={Y~K0Qx{67E|gDomf6lnT+2onQT*rLCaUIXCxwEC%Yh>koO%BL0+>cS
A8vp<R

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_160821.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_160821.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..47092f510b4d9acbda2356b7d11ead9d0a91bda9
GIT binary patch
literal 3042
zcmbtWU2GKB6~1@=cD%c@>mO{@78JW6SDOS}Qv!WJTTJ`|4K@-Glo-^}WM}-lf1MdG
z*vyKtL}d?s@S-YWp$~DRM1>luMygbcC&X)BSQ$mu4UsG*FMg>ECRNqG^xT=9-8D5L
zRj+o>z2}~vd(OS*es{i<q#%OE+kYN=89?Y;%J_{h54MUhxP?@t;v^dOdOVC>o=LI8
z97Y<RaQ*nEUavA5Hxb@GM>&<<d47abx$E3g*<d)J^4HO@SXoy9u8u)kT}2}}jbnig
zsy{@+Cr+Pv?|u2)so_3(a2q$2sEw@-v|0FX{T<V+OrTzyVEj?FSMgF=o)5l3lc{Ki
zte_>%!0y#pa8;lFNX3@8R9<riCi7t{WYzs3ySi<5k`=auN$`}9SdtZRM^Ot|Vc0qJ
zTSi4AOe^@e80wp@WJy#)Wn~HLOY-#=_M|m-oG<k}*4XjBB;QbztKer??X7w%@=7$(
z?J>;2KHq2kyz-4T{=}*ue`GaSjh5@7CQf&SYIJ3f^sJ#_G>u~1kWM#zgPv&&6E39~
zlQEt!W|9Q6dS+BtQu4S;1VvZUqZ;9o8AT<$VP<qK)<p0iVb4sNB$850ef)}S09Cas
zukh0(l$kOs!Ww3p2<7S&dgYUSJ-s@OO{b+n`0ThUr@Ssrgv`i@0j$>pPXndA+XJ69
zbt)I#9+o5ciqQmq+W))#>w~V#8GX{oDhaJ?Oi4^C=2#|uKpEB2W|yHSx=byV?E<c=
zoR$g68`+GZ9n4P4FfT)zW+p8sGO8wbANkoY4t0Zs2$Pzg){^>OSeBl+!N9KC=w%y{
zq6>r0V6kI0yxZ=37LL?#>r!LkQc3Fg{KTJ5{qfXYWqJ4N{&-1>+x=^=m8?rmg%L-l
zD&@ht6e+aa!NtSHz|Fmj@lr!~N$OtiUpf4^Vddz9Gmp}x!{<xVd9a8!7B1ZBDVoKB
zoATn-QuCow^w9E!mEOl4D+3SYM^{Vlo-IYs+9$sgg9`yCP!Nh2KI>UD7YA<3cXP|?
z!=B~Qd)G>P;!nk2+C9%WVeaJY$@vcpzbWQEQ||6s9KC&Qxn+fWsH_AY>@Dp*{uS4=
z1zUj<l=zJTpbI!T*q}Lfj+^7>1b|a~Lr|F;d`+S606>o5@FR@r`$7{t0SSAbTPl}%
zz7}+LxQGt#2>+8mtnxQl_;d5@JU7qJ3jor>burJF6iD4>dGLY&I?zPOpRM+4z=y`y
z$i<2rzrlWIdBvXYmcu&S{ko+x<YS2H9Et^pHf#uJ<2Vq)C8ks*#t>dLr?VOnR4q52
z&^FpZmY~SsH~Rk3OSN?g$S2&J-U^3vu#aDFI8@eQe9aLC!ox!lj^N!h2u~f)0V;8W
zedl|s5TWmaD0CW+K?7^Iq3J({5fP6imDI<o5}#?ktSi~9rXM_(%p{bg5r=^%dW+ia
z2l7uFJrg4fAtzMmFP>f%W81msJliVh?V#u)rA|vI##Ez-34{kYOpFm8U_wokzzBe(
z*?olYGn$?;TsR<t2aT}+MJ$Sygry+GjRIg+ebr<HpB@yujzjZu3Y0U^-v!A};BR~Z
z<li=0lj<oFMD6}(Qscr!=VGyQvGYl5?61v#+w)-0quf(z2t>i?!rRW<g<LWBq^0w|
z_LtPX)T92V!T0U=)|;B`(`%IcgJHvh-TN|#_|W{}+0$!cq`(4MkQ}L?tcpJ>c7A%`
z_JO;2we77nF|-hLf`#tiNd@E9%*~m_j^F30fw0!x0l)91055DdqHxsymAiY}5P;rU
z7Xj|T;1(K3dAR+T=!1>n9#u*X?oXvG@~p*9l<zbcRhs|lV<D9}2D2*rfBWI69}7Vl
z@=%5w^}y*zfsl}?8K#_241j&8fuB;rzE=c?KtPX(@QGw5t;IMJ&^2Q!X&O)j<1-q4
zv{ZRaQ&j!upk~mmpl_6S%DdbZ%I{0gklo7C<Dk<=mFc~+(R!rb9@q?{mff>(wDbMn
z1se*T#m?1W2b|`f_D?^${m~yT+5_{0C9ds<s);DvWDmI~6$|MHU>!XMghahq4kqFK
zpMocni2g{YUm=8@7&l2>B9k^u?Mha6tKH4t4Vr|!+~v_sQoV<~YgE3Xsf;?6)Z#i#
zjGnmhYap8}#`s$l{u)W&pxx^@FxNKQw#l^O6BvrAsrlABH{aQ8a@k#F_C+&gw^+o4
gJ;fJCT5xnLj<EDXY{N~@dohacTaE0W4Y}+82e;*=>i_@%

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_205496.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_205496.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..374962a6151ada1380e71971fc670a6ca257dbb1
GIT binary patch
literal 2747
zcmbsrTTB#J^v-j4XI~(d$}>x}=#&<OB26pNDi0qBrqw<~n|0h7U}0aK8BoY<G9)yx
z@q=yBMrcjkPb?;CW25Pp|NgkaG~|{hB=W-_mVUH;_1xLnWi>SRag({{oO>Sk+<P8(
z9(lb2g7G}{{m_p*LQe^iA3$4Ua|XaQBqN!Mp#B`B`YDU1qf9?bA%z;Y?ARJMkm)J3
zXyg67%qR|-g^yFvaLJ33gc{&wev0jP74~sVp?-lzicqlO9;Za-IuY&*ISH@_2athp
z^J~iTlu9~vz;a`l&SP6prWb8~()9{SrXVR8F2gwidlhN0TQ>8UOdHNcdrvqE`jVE>
z09^s>3HXw3L-;RNh@B!U9>Z<$Be09%F&qR=z<H8hSfz=Fu*wi<?dSuFwN~8*S6KBI
zogyFU{1E^e$nX(u!+VR(pC(ySq*HwVww^&5eoLps(jpOoL7{OZa((Loz*TZD>*VT1
z3bRp38xc87>k%v@)cBw(MT21(^O7pX1{KUk;*yLxO^>UJSc<7$%$y$8u`ep=YWPY}
zgIQLtyhM*<cYIVYFpG$B%%3^Y-xch|d}r`@*O5*v96fcqqbEpKF_#F-!DtS|Fs(-6
zi>c&dFdvSATUW4y7$yiaCPlPTU<F<t&p&Ru99KuQgcMSmhNRGlqz}boZ%czpOmEWE
zP?N4i6HP!h*@w{Ks9GYfDUFHoAgl-BP<lKT48>(7*s}jX>w9g$!TgA##*~O!1Dg_`
zv_~+RXtlJ=Jh|fW&Gx2x=jxU`)n?a=)T+yuuFSfsu3x$lo)0fj3-2%0w*BzMgFSaH
zXKN2<U5Cx1%iD?E(SQ1IOJvpKOP8m5=8k5{=X<j5eP-vf*Pm|8dIOo31z&b|Th`lV
zb}#!%(g(A?+RTp3NVcvy>uWZTtqGply{WzFy7a(TZ)RGb2>Z;A6_%eqK6!lRO#0o_
z=W`ty`DeCa6OMz_9b_tl3G=F=kE*edT}Fh9NQ1G8{4>a(X*5k;D=x%hNlP4|6iQJ8
zv~E)f4R2Sh)Gd0^PShk_l-}EvM2bp5A^!_|%nUUH8ZtBGOtQKw?})*YW?;|;W6;Cy
z{OT5z*?i0S8$MUyGq2F!o?p->H?(LMGKCE03=;W1%!Wo~Nu)6+>*EOp^RhA)4k;nK
zVOoBYhD!pqc>$(x=vPL9mZ^LbDZ1nBVn%IA4$$Ba-KUbUfjfMzG{8MMJSH-j?d>{y
z#7Y+{aWoRefN84L0I{<@B1JFB(xHip%c_(}C~9MSBp!mgJp@RORRw}t0H!}obiMpW
z)qGXvlZB6#D)!&2zu$1T;laSeOG_;$vb#>IwIF1*E|nZy<S_?5DKvyRs9rgS9Rtv*
z^yW6qL3QinR+VBt*PleLIIVM4j~VDBm>q=vr4fS{FG3&5`R%a1Rhwb`b@;TaF#Tzw
z74MGO^QrT5^_lv|72>^}_iOIfJRE!C?K8Vq1pjP9sv$i#H}<%^{+4n(dNca4`-#wF
zcC5Kinw@K`Fw;7DYT4;qcDiAn^`^XOY00_kMch3rq=a<yRWC?wp`hdYz0}3=8|BF3
zH*<Fp0-p+lgvYAOZvnZ6!YBzp3Kt-@NvgP_;BlbyIgn%wX4tN}f*nBe550k8x*cel
z`QLU}V#h#`NnD>uuao}{^&Ob7TURta7?Lz4*eudklC6L65~BqeBoLSjMdC3<WU)h4
zw9$yJL3qOx3OpFR92`<4S#1I_ja&tJ5^}M8&Dz0k=wn*Y${F<_$Q&TT7hr-G?kh2m
zZFo?5^(2IHrh82&P1n!WF9~&K$7)UB#<}@(-<>y)&Gcs3%6}^6M4mFU&&pcSql&PP
z`UXtcpYx?L0?+Fxyh+%Z$5aR5Gs9s$m%L0kreprB64T<Ubpw{$*qu9la4;T`Z=zgT
zR1-~Sdo(VOMwCNp2au#wXrIEg!B7<S6nTC@-d|DmD&?52oUD9Cd#SfJ8AN+F2(}R@
trTpoR4Fn)lW`TvBx2tbfZ<3YGRz!J!b5>Gi&pIjO-@WA9GwHTA{tIn2T224}

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_216901.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_216901.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..705abc509c41e6ea96fdabaede1555d807833705
GIT binary patch
literal 2331
zcmbtVU1$_n6ux)<_IGxpsj1njMA~i~t=UGbP#VNyjOkBOinQQH7^XXuWaIA6a%U3F
zGFv7fHNl5$sgT$T_CcsNLM;^f>U&>YVj<q9kYXw1EgGNt)N^NcC);4Lr3dz$d+s@N
z&bjxT@9s~s97RCi*x!yn6cKvFlqPYF#ij#`1*9V#7f{xhIEy`<EAm+ZBLh!(ahjj{
zQs*wArN&lP()mj$8`6brSQoPq4jG}q77b!c;1dH|EU?9=u@YKmQHFEjMldD>`0?=D
z`~%nmvM~scCYp6OH$dumsbQ~%pX12|o)HH*VTZ54y;LBE6LGlax*Byb=wed`KcTs<
z##%D4Dz}jn4Kl=AJf&@JpgJ)pzSKAkM$<^)hY3^H*;y2Ua(016%fuWbT2amGR4AC5
zPDRT$iJ{084^jSuNt-5$noaT-RSURoT->Hl)0jDF2gVj<no4Kh$(~Y&sMN0xo_f2V
zisihnUi1Z6i)z^>7L`n2@>5#DlA*M&R{Ha!%mtI2x5`@1$c$^b^O`+wmJVxUM#;`t
zB$u&`VmSj^rctI%w31aeEu*JAt-`(vW!q*+&6&EP9_c;y=Igy+q0)JSl#Bv-5fZYy
zvx>l6^t1!X$@!tVp~d~n@jdRT)p(*sTay#DU5oqbJG$#~_pMj&_S6rasLLnZffc!}
z_Qv8{_4agKPT$&f_ocehSC{+Tf#0L?`R=*yTKY=HJ-I4Kmj`DCXFsl;`B~`PgoG%^
zSd$nAyqWwII`q7mw1e5OgWivFb~6^5Xr1=Pu8!|;ODqFWwRPs7fxfM%Tbce-e9RDA
z<!shcj~uQOB%lI2Xd>CzY!SN9oa}$Fi-8?K=lf^dgYUOav~|j*#(iO^?+j9;VJhS%
zbxq-@sN2(JgG#zFmCqTu;H7}l8JybTx0wP49Ru!@9lRo=97Myz3P;$HNgFT)Q=w?s
zn#DqOkq+QA+*i<wpXl20O6LWlmCFX{=_{ByfW&cF_@;f}Xhndz=z7P^j{5EcWH)FY
zs0kYfB}_#?Z*H85fC9a=m6C==0o``*F)CIJVp`tZQ_07)!UGsRkW(JOOocH(y2a)M
zkm#2eY7|8dz%Dzi^%*c1t;##+N9IPZr*Ee3cPc;Z`f=~~d+$v>kcZuY)o615(A=S`
zQ`e{Ncckwa-xY5c?+rYNzUQ9&Eq1`|UlpRWM`zw&2`6eiuz7h-u4&8R-HYiPhp!#J
zg_lzYSHiLR=v=hcdqu8U3zg3+U+@2-x*ASgm7YdKQQC;3c+!2>yM*-<P|vyx>~D}_
zx8gzSOIR$RJdC}L&p~sl7)CQ_C5$B3d@8HF!%s9o0v`p`{7Z3=&h^2r&j0T?0*m7y
z7!VN#WSz|hc?}qi*@k7SIn6TEUNCeqgR;$V1V)N=gNnI=Su)^34-vzfEZFd*TKS5h
z7GY%7aYNHd8r&>)73^j88~TEmq473OS*kZS<S6(YW6tM*xo9oX=AMRI?$|Q}4V{J8
zY)37<m|l+VcTcYE?YeRH+S#v0+|#o|bs_a{-NGo|?hboBQ)JQwd8p)<L6g4hDQKm!
zNqFIDxVa+mCyFRPk+;3U_0HWg+>(EAuY4Nw6?M!k=(mxNkOstxraoCPjuUq6toPQ3
zz&3b{@go%f1<AjnJ!?30IW?1d%<aIbO&)Ra4Yqocj^X4+3Pt0tv=RaKFw%CV)0H-N
YA}l`%r*Qk@evFbYFDG7^iFqmi0<Ze-Bme*a

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_274099.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_274099.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..78bb99471106026865084be496261fa044b5b116
GIT binary patch
literal 2950
zcmbtWO>7fK6rTOHV|(rV@fT=GRFq)SCIm$wTGW>24@hE)phX1Q)ylheoH(}G-2jQ!
zVk1$3+e2I~n6?r*CL~p&o+u}`$8xC~R7FE7MJktEDwnjE9;&`sdt*Zrg{mX(%zJO%
zeDBShd2jqk5L^h_*V+4nj~od7N*KFU6p6K;fVhKXBvVl|P#CEJ%Hrt}W`L!TLJe6s
z_R_*A(+WG}d0s|1nb}0nZX)M4mWP}&e}kPZ8W?bZJtts0L#*t$!46ccd+fY{23#~!
zT<f~-G0I=DN>&CifA-`+m)MW_PVq$7@lNb`ukUn6F9?c6XRv&4Bq|JiYrjz>DmwIq
zHbmQ0X_Tqi;(XGzg(khO={8)3bDTrv*lY>Yrew-+&K7NsgD~ka+(yMqt*dx$onUwj
zei)FFUPCY(7UeTM5Iyt>Eu#><3(yUQAR7Xa5_wTd6RBmrvTT36?PF;)kWoqW4DSoL
zzUL9gAzpKg?O(F0V6n^(&ho?ZuFMa1-H+-rKb$4|Hf2yowdF^ZVOcIiwmd6g7Cj+n
z4UIx$$j=5;67W@WrhW>uBa$}k=P<2Du`8j*!>TkQMr6!OsuT+=n2p9I8FQK*R~3H^
zrus2+dQ`{W5lL4g*F+6^S-JKCKZf1$QGI=~j2TmjFDkhTDnuQrB+QsgL}YQKFvKt)
z4}~;f3nTEvMZ#NS3^Nh=8g>^QkR@Hh4v>goQL6#8`hT~-K4`rfSBJHP6jWLVrQoon
z55{9}NMR+Ww`yvzRaZt5t-!SwQFYk7mWXRgOJYm}xd_|T<1sN9mlg5Qk@kZ}kHQS*
zhZQxZMAf}umh49R8#)vHQHKQIWPhqZ)3E5-V|Fcjyk*>qP@O)X62DUKjolrauA1&y
z+}oZL+Rg5z%_dfansg{75{)9U;;y>gkUp1gO1+c$IOlGj4lSH}*tT$fCZ6@?S^_zD
z!0cGAuD#Rrc~hn#6TI6r&ELPguy6Y6jPF5Xw)XqW*&W}u=Jua_Tz$&yUGZ(ZEoExc
z;nel1-8tXu(^nSchsPJfGuN}bbFF<jU!U2t%<?x+Oq{rNHhm=ZQKok~^v#(EtYweS
z>OY*xUj5FOYdQTh`~Dh400qm-2q~UcvAGXdZmVJgDMsl8!fHbsmW(-iwkS{1Wr?y;
z!cqqM4`__cBw6@4-F`OEMo$9x$lA%hg(hWiwq}S<^15K}%;2qpL>r7j5BY3qX_Q&J
zlx{N5t<N)CtlxOPv>qaEum(5B&laBu3JT>}<aY!x8yuA-KaDwAA4@2hmz67#pt5R$
zpH>l3NpbSirA+oaF$a|*IEXpOAUTE|A*dgE+hNR&D{5TBd?AqlS&m$>@&@yT8sc}9
zN&`uCQeH3vNnJw6Y#6GI25-Eb<m#(HW5-ohN+c9jJqTO_eA+y8CR!G%CoiThX0}gl
zpBtS|&Lp!RJ{J1S?q!#6vN_e94rM}fUGx1j{n^IHu9IfRinq$_St8w2PxWMPsyD+=
zITk(p=NjjmXPOs655kKFx_@-{n4M2q*RA%6z9px3$?1lEQb-ADY0<g!dD=bcO1aW)
zp9!E<B4Lepsd5MW{@mu~`20@f@tLR8dhj_2-+CjL+)A7;fVhJqC<*^wE|E8mD!=$}
ze6)SZl8nI&ku@(g`#*z$WcnD)$;|)8VF`|b;G%E=KfPKBoO%d4?A8@c7lV?fh;1-Y
z53<#FUzj)qmxde`=7Q09O!2eWp(@&FREHa)MaC6U?PYOLkz}<6)HD(bQq~LSU29n=
zmgFm%Xx%vVEzo(7C|`okL@VA(vnTIC+xJWa%<fy=PhC~%#!Ta)s{s!BmHK-Z?q2xv
zqS<q+KgZU+teO*fYRrIjQhtxx2zJy1&|zP}mzF3znWONkV5d!~B&RSl6wz@-Fdox%
z<yt~5+<PVx)2$#_o?~|*0Ae^Em1mG;qp(}&v5~ku8dcs_I{=G3+uEnl<r#{io*>T?
zB>aN*tWb`dbrW@YdKYzu%6rNC)0gVY`z*H7W~(f=8hI-xFQqQ!Yb>_5$UfUf*fj>x
qo+8ZQZImzFkw-90)vS?W?M*}p&zyBs&F`HQ^1Zg`-8bR3eEkQn`HqtS

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_369711.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_369711.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f4183d5202246a2c4c08dc1e7e6d99aeb531913f
GIT binary patch
literal 3264
zcmbtWO>7&-6`t8YQY4oYMahk13$_|p4&&B>YC%m6$4)BBQkqCXVMS?ZyPGX{DN!Q1
z#O_Kl)g`h*6G%i3VhR+Y+Z1MUssDgFK!LhB=@=vzF)|8assaL%i*AaQ0&P!yv*b!N
zt-vWd<j%~S_p|T4dGpPFCW<};O$pzce#(o`7nE=tU!UxL3X}Jcf)t!a@!E*v*rAyW
z8|N@m@r+}~RjrK*qjEEWhu0{jum`UvIfZ+RyIog^dl;mmnbt@3T?vI(TNFWU0X<KH
zo^Q`n?^`JD2P=M8BOb`(Xv;P=IZix3dFkb$7o{<G5=%73K%-~j**(k9=uJ$OXqy4L
zxheQ|onP=hMv~c+^jkj5y8!QL(BPUaL$<Kxy<LCj0<a4K%Wt)OE4`M7^h7IQ3A13S
z5VS<g<IF-9vP8%i{N84gOefg4SZbTT$qLlg6;$UiE~n6H1)F%Ghpj9?J__N6$b?5D
zvs$h29oF@+(AFRgwb<OOw!O?nEL`)g!D}aqw;9)0>ZyWVe;<+N_Bc&?7VmNj?G64k
zRz}@1tKEuN;e+ZMVxpA;4Wm4Ya^pJPzHM3|QB1guY|KVIgfY{^m(#T=UCu};g$S}P
zXQx!cr8QY0ya|*+c*E3mmEehJ2f<^6eR<9#!HjI`sjHF!y`o-iqVvSB&6#`51|m;{
zi!a27q2Ps>G&=lzOs8JzwB!h%ODR&OHh?P`NlPXTA}IBdx(sZ=85QC+^n{c%bwl@1
zWfn;A6xJq)S20Y7Wpn`R*g@?-uk^j4>9a;oPN;p;a$;6Cr?u=4<S8|4_JNf?Q_bZ1
zfa<FU>ZBs48S1HAUV?QA0ynj+l+YAaIz9N~ANBVGhX}K(o>kNOcj3jf+KgVvxQ)K<
zLSkrTtT<NgSq~hshc^Sk25L)eE4^Bj-q)|^ujOxqZ;Y%T9jJ-}_JxgaVr+?#QnDyf
ziTY$K)LI%WAO8@SPrQ4+@{4NZbTxGPZt~-wt#bEX{Yd*HSRI_Kh9>RN4S)DIJ*A1#
ziQ@V4WF>a1r!sO)s`|fg$2NU|l@rAirKc+G_kF$g5Os32I9j^+&X_&C6>2L@mSZ3G
zlt<o`D)YDGyX`loK6ta*F?cUr?Ko2now+x;8vC?ob>y$oC%>vb8?T1qYgZDVE9%<R
z?3yxLy^>zj7OGbks-XpYbdwX7Mi)nye_ooa4E%BMgTcRXPwzsykWP0@KLlN(4mWfa
zQ2=*<FbU~gLQ5E~0$gC=VH*xeqlTk~P!Sbzk}>NP0OvvA#_S)K0@q;g0JtdPA^_3<
zV2@wM%b)?5inkz`Ev_S$;J_Sb@fJ7ZcUSjEg?EAG8~DN=pMQ-0!Tddanjwp^*gKxv
zb%4Rh;xD48cYOO8I7GO_oFYdV!YgJzr^0zu=TiwaL6O95G*J<FcBi5HE%UgWs>oQd
zeKY|s?lvU-piRUe@7xQne3AhN+3|hw0RM#Ai3ER@)O?gB+}QBM^G+!_MP<<XIcD2>
z4~)cnHZ5m<smSLRI^WRcTu#+bolR>AIc=PSNsaY12pT7$`<IR0KXm=@wZoOk8xwb<
zH>LH?XE!^KHm!Wc;?DE>lOXRvtxl5?Wg1)*08lkOF->@YRV7P2NkCb%e~|EiHD=zy
z3?kGJHR{<v3Hv4}_)*v;EWj(_rT}{lihi%Z?qFOkG*3MseGoXu;W7RI-M?+L6>POf
zHfXmgwyj($UMlxide=ImfA088_eb5U^Y_JZ`@*I#v~sd|vNT_wUpv%$NBvXgW@h!m
zecy}r(ANwOoVR0Na=zt(#g{g`!40n;`W3M#mgIHs6A#b*E54$y)c=kMQu|ZT32wB0
z2mb%;@bkjX6DSa}f9hl{0bcGkdQ6=I|2vqxhf=5j6>}MCqX5T#zgpl9X55-6uogQ*
zb()&{-9>BYEbtWe|F*+XI~IZ(<j14THvK%*pMj3}O%<-5glwo%KkWVYU~T)kCdLne
zLAQqRiL{ngqa5+*sxg-~;jS}M3o5<i6lq$O6@38244MkMy|vwKcivFHeC7?wsVMz9
zkQt`Jm!Yfg^iBXBI<g2`x_seFU%1p;?p^ow*h5?0$F9G2?X}-uvPYK3s$AE%74xD%
z#2$BcDk|!y;5|A$AS6`t<y0Cz9OmHuBwlx>(+?=Z&ZJDzlF+h-sb0<LwJP^yH3_~s
z6vC#mrjrdP1mdq{LYmUj%1u-|O!f1c(UiHgdQN`<j8g0|-h^(4#Tb8q0)I#1KhTja
z>{;qs?Al=t<C8mWDA>Akxp;XeLaFvT^`HZ&T^2Ecn$#J@gzS!`?#1q3AKhUhI8++i
lK`>Mz59mN8!_NBdGYE?hyj?i*RScuhlk36bi+;z!{{qE!(EI=Z

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_412290.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_412290.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7e49700bc9cd5b37a96ca5e4047b937e1e50de97
GIT binary patch
literal 2521
zcmbtVTSy#N7(Qoac6Qv|*^MzuV@)wP$zY>VLTF0}ny9fCHxG$vqaoAD%&2>v?aZiA
zW?=*&E_rbKP_k(Q34JnEXbOeC=Djaj42_&x5Rw<)Y@|^7)c?$0+=wMDJuv6L|K~sF
zKi`?3MKOS2bj81$xWOazf(n)4D>K{Q0&^E>NW)1qQlfYSdoq(^M>vdh9QX26LQ7O*
zbS@rxT}LI2-CIA#Y1}-wTn-rVL%aaK0_c77+(=!u0)8Hi1Q?_Ts=mP)EcrKSWR&oi
zKOE_ohX~&%5BB%=sX{p+C3H_LeA^#jx+fdv(ugw^Zii}kxopo0Z}4QQo^_7k_-A3A
znh0(uXNA+S<6kbXISa~cz^Tgy9pnTYhDKAJ6Li=LpACV9FJ(?ZTvn{f51rdRoRA}~
zu$2|EVFyDtu96LM`6_%iQj@9ntjZ~!h!gg5(Q|`=(F~Hfs7Z_8q~{}H!le`|A^8Yn
zCrKb<8snytl4Ba-6;nx%>x4@hibi~vZJ4^WkKiG~UYfK?IHlNT?3Qf7tm(IQ$ulHq
zOxjgrjWA=<T1<MZ#FvR_a;ikqgg3^<ED%c+<dmGTP0RFCSKLbknvrU(eV}RGHU1jz
zoHopal~Gi^b3#!QialYZPb%Yj+U~SWwbRy9nNE;8%Z1ypJu72adPinP2E7a$v5mB>
z8k#Pj?&|J-{}fmVpU};;o;2TvHEFM``!KoaWhlHjlp87>UJbRl{p+tu8{+=_)!dEy
zHy_0A#g_2Wnbmi?i(<DsuqN(z2R6iTzNyertUpl{Pb{5z94)q=FN){E8m!L`6s~@G
zsTe%!_N@znMSsqp=L=V!2}j)CjR+(yB#MnvF(NGuJRU8++f$76xP$8)e|vClaN)E3
z7X|wl?$|cehtyg~P<VU5xe6`6{YL2Ikb}n<o2Kzbd`}3hFw5mjm1Sx!;a=An=g@!3
z$1b2Ttg-V#mb2?BRXE&1U>(L`9VQ;EXm_Z_Rbc!Nc3;)bz9D{Zdo`Y(&kDa>h8so>
zdl^aoDB;veO_3Pl)9jgyPIyh9imAF<eWsvR$~VBbO<VF6zKe2r3_~=IK0*-54fS8?
z_3&ZQ{<XShGY}%2O)9CInsRRT;Iye^GP>DuHfg9z(mDrB$wUvwqDcAEMTMq&b!H3j
z9?nhL5{cP?ox~F#fLWa&K7fFhCjK#ixZQPz_-1v}u)M2I_!6)s-%cPP(!)Gq0f~eg
z2jE-uQU07lu~e$RT%dUp^o{UYcVL2=*2Vpcqq)&S+rze}2c;hye>(KTp(j(%#Hc&4
z9*8Wq=i2jAg{h}aZ7cfssYj_N1J42<yBA&r4+9doz{2UdPu7I+nh=C}QOt>XWmS0V
zbw0Ql$OZCUcSP{2vXREMNaG*%bv}OU018FikGykHp{DAfx7$O<*TCFGF_eX$<#qZ@
z<Jy}Ik1$hxl39n1mv4VH4=|Nqnu9dvEXW%Bzw>Z3kAvWj_@WZCNnbv*6DAV0b<37j
z#nR<2FtmbhvuBr~8`@4AL40b`Nb3?u{HAVACT$Da8=KYXW2?y%x}urw;AYXI*y-f~
zZ-w%!IAzJ+oiX17pDyZr9VQoTg!j1@w?e3?We!@oFz_-^pKmL)tp*Oe7d8&HKDc)8
z+Bc)_#f70F*ZgnY1Qcp;qh6<^ka--|A$+L}5-HJ+B>b8t;cX{Eg)=E02^){uq)s)`
zmaX5)n5C=C#?rQT4qovjSULlF+(>HX5r`^br3|%{p-m?Bb7l`1C|s=xn6_Aq@e36C
z6^Xy0mJRH`-8|R4#f0$jr^BB<A6AOP$`+zhBK15mT}({BqS7{tn2_hS)e^yx{Dmz9
f<YB`$CEKSE7GDX?xZ(Fcj3P%@!^h@=UL}76P-QJj

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_429164.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_429164.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7f03ee181bdc979903908efb6461b71afe7ac581
GIT binary patch
literal 2909
zcmbtVT})F~96$H7rM+zt#7u^XOak7ZG8|)BVw}o{Isvn|kBB69P46wVw7uQAmkQ)I
zD~XHnMD<0S4`Q}tFi2#}k}W>@z84$JLe5x1qA$EGRou&-_CNQwPzsxxo#vj?|JU!F
z^Zz=(`g|S)<IgX?AA06S=m{l?LoEE+cmRKHAr+}i4D~xJ)6dv68|V6Y25C&x#wnUQ
ztIBG8RNBs?l*;YS5A!O2jbA7j^t)6+bE_hJE)7MicH)FZ)qRcc_iUc5;u`ArvPko8
zVn}0*>{+L#eMCCbbFt%sa_M}3m(sh9>I;>gUI1+lz72_`_cj@7PDd2z@}V*d1$o-@
z5>0kf(`$Jw_c-iRV!@XqgP$17y-?V59K>nK@>&(IWLL4x&Sy#BBlH!kqA<H3kSrHP
zv3!(E`3~3K!|!lQbVXa&Mkvz_?7$U=;k@OzmWy)7!B6SR9q6{q!P!E$Y#iHSPl=C;
z8Cl{g3t4`8ZmUw|7WoAlHyG)v5-Z5-@?kMnz_zN2ddp=96|=|MvnUi188n7uu@BR5
ztkZ}O7VTt~@bREAOa$E=(y+{67l>q$ux5;Sl2{+a!MGApi5SGe#Gpp_m>yJ#V3<1A
zh+qQKkgEyPOSp?8Ch^CECXS3M2F$89T1Jl%uRdaK3QLGFA{H`R>{QNmo$kcc7nr6M
z5t0#Ai91Vzh<Z3|0O_m=B8<Z6Mu{+HFCx8*5+Tm26D}2u8P$MtaOe2@la{MG9yXG}
zkk&F33=Id(Aw6+4IH)De76XS`Of8;l0ji~NDf_ZX-O!FD#}wcza7j~7C?Q?dl(ysV
zx3;%|gowi$PG~V)58Kk18y@g@2ECAwFEHIZ)jLzaEY)SYRwaK4wdSkJ4&;3G-=6vI
z{JryY!KJ$8hLbtp$xQdkze?7ms++A@HT&Mw#hGwUYM4#UsXv~c8@%^rPHN9|t^Bum
z&A<2NM>Bl(vnhR6%=sJV+Lsz0FiTDIAN=xZuDK)U>x8{uLFcJQnr@nE%GPJK8}e-9
z68G5Cmg!jK#p~xL&P`s*zB_eg=FnaFwtS~~uKPFsoegja!Zmc-2NMyoW{%)QsL(2?
z6w$V8H?hybb+6IH*pkB8r6obRF=5uUx1dvWw~}NR*<#tGxe~nH3lUn<YvA!Jmlog?
z&CSBy?TLYN3dI)q5>3Vui<)6J?J@(!%ULeFRdN<QOU{qp-V!Vk+Ct&MV35UMqK$#@
zp%FC*y+BaSv7|;sRZB%e+WJ92!_-MKyH${~8|q%ip&{G^5+XngP!q%zhQ?sFwi5xW
z#)K+xiUW|<NXo7S*}WBY#}ulRb_>EmSJ=WQ{2(+BgZjHzwD=(1$#oS6lSvKZ<3PO$
zpYaV$P+21KS5FU24a_ty`|2~@tG=q~E0A@KvyG4T%RklpeBg%z4^xkQeIW7#rkkgl
zv#FWXqkWBw+Wq)^{9*TF&xK6KT6ImPXN68r-TrCslsDTw)3fZBSGQ4lfs@2c=Zi`t
zcqiK?dRE;2EVtsWm~1Uf{;arCQ@<qr<rM`n??+M~^C5l<&KZJlbI|0p6Z~uVa|=aK
z8s5tRD1kJSE=ght7+VZ)nzOhlwJ95${T`|836QDW|Hk1dj)fpKgg%*FuLKIW!9={K
zW|&GSXlP0+q{Lz1t)D6r90vgn5D`K#J)y}wabe9EiJ1lwjmWr0d$+0#X+agg4Qd8;
z1&y;4<GuC{g~pmP6erQ>c}`K~0hlsq&0m>0o0rhOx(SHsWcO3go@^ro-%}4^JaF*t
z<=dC<T*;iB?9K7Dud3!oQgx=!j+E@fGVFto!bAejS&qfv^&5e=fw+tRa0Qif(TGVZ
zLVCh5wb3NDGo5gegh|AYwS=KN*^226h}Ut1GN{MYd1UY9+}eF2uB#(4?Ii93J^DZ!
zS7FL?48uG@((lOk2dZ0RT-R$SYV&Lr)0P)eb<M3KH;&|84%O0nKQ<qGPN@wJv67>8
y_zfnoA_ejsUH8}7>zd%XJ}@z`ApmdV41*Zob9XIM{j8HgfkVswh6%5Iuzvu~D2WLG

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_469771.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_469771.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..89d6e09e15c433f98538ee77ab8d68fd67a5f1b9
GIT binary patch
literal 3181
zcmbtWUrZdw8K2pIcii3H0S9itMmCL$dvR-Ihmy2%?YJC<{DG)3B@MQ^+1~EK!QJg?
zb|F5pr!HzDIOTy$r7Gt%l`nm%9b2j`RjSn|t4~$?k`q>irc^>oUU(xWmD)b_o4s8)
z6C$VTz|G7z-=F#B`@Z?j{#BMk2wJlJqZt%L=o3cxP4p%^e}Tz+NJARVqN&D+r?5+N
zIetpONXN6T9bdIEYMd_2Mjl;bl*S*to)$FWE#a1@FcsjCj%HiGsP9W?qTZrOdJE_U
zn)E`uo(A7SQ(>?Y_BEy=MVx5aVkXCF;0G_gJoKV6=1-ET<}<L<^YGh=a_saLW=gEh
z0=>U!_?E{ng&rfx?MjC2kR4oveVR0c{gxqG*bd(E_FM#ZDPo81manAO@`#>nM{H>h
zER~|RYzN#~%tp2h@q)j%xir@W_HCZoW;@xD#=3?)4(D@9t#))DFZQUFMTkeKt?6Xa
z7f)ul+HJRa-^WsWlQh)g{${uDMlNpShSzU%yS@p&Zw;@T&LjGqQb*Gc&AIlrvODa!
z-F8sLf|slopkY)*31OVDglw^#ComOqsyUYkP|nKIP=OfJM9nD~jY=v}^V2#NvWBWr
z(E`e(qG=gKr+6aKN%0uvU!J#UG^bi5b5${+*YvCV=pqdp^VTl2i6~O(((_ZpP{LAD
z86CcmB+N^~iinDZjHcuo1Gth?jC9(hlID%fWnfG0sL`NFQcA%hCJ8WQ9!T&M)+T6B
zGcA{8b^`0zLG3?3>VLx^b7nzJ>HRZmYEHFgjQqFNX+3ZCgOz?u&lUQC>h})nhN57Y
z`l&)ufprBAZW(zcWoWuGF!<ePo;eL1D$VI6uV=~EVPjT5CWeSR=<{wQ$5zM6W7XcZ
z$Ps6FBNA<*Hs$upt7YW_a=m!1c%$vc$lB3?x;)@qT>mo0rW~)N%L<e5CY!O=%3$^Q
zZ*cX*yXR{^smGtL$DY2E{^Jkt3-?~VYy3G{ADpbmCY{msaN93>D-)Fy<@43aTJodb
z+Q>Df9{!e-+z3ThPn1tozFF&d5bAS=n3JRB(aNQF#+>2JSbJsi{R>sAI`Xbkd$Zno
zrXD+UXYyY1Prdg>?ke}+tbgZ~dh8WvbVHDqN0&xdeq5Qa4g7ZS!@<7^PwhY?5Mjw6
zhoDP&*uYj1Lt7WM(h#X-w2T3_afyQ;-&Fg}8m<~bWmLv#&hjWgxr301+q(xPp~>C>
zce{+sfExdUJ#huEfCjt(!IEUP_>S0;i%Ehl+QMwuU)>uu(MN?Z;Y+)G@iF=b^LO=G
zglx{{ZwGF9*nyEPUP6iB_|`FShzhBBO-*oA)U0AbhpVP9WKw#HfrQ^!pyKe`nSt(?
z+~b~=GG{~jSO9#GYzq28NyH%Ug19fA=D<OId=D4EKdEuqz+Wx1kl?8>Hau~`EhV?8
zOjbX~9EbG6NP}myYVN0+dTz1n4WbqbIyrSVYoyeyc@8EG)>9y8o`mjS4*KBG^~2W=
z*CuaF+)3P2*1EpG(RFm+%4a<8I!~Sic^5?q3rd1(a!~@TG)QWOih!6}o(9qYpw{U@
zDgumHMHddJ)BwvwVDBdEnP9la5S8+PoK%<wSTz~2z5cojUyY*$yaSOz;2eja`D^I@
z?V!zQt246Bx(&H~^>X=gwXfFqaaZE^oqy=L+jD>6fjsV9+z7>1PnJ(s7OD#$AL_fU
z|1NhkcmLvp(2LH{=Nyilcaon9p_PH9m)3*P^<WtKRk<uz)V1IfkIuuZp>n8l`W+dh
z_NJf{U2pvw{Qt8vEK1u?ph(Pl!Hrr9yxeW<nz|SMeVDw5GN=R<a|LRn1lNAATHwLt
z{F*57Hb2XB_BH<_iPg|q;A#B-ZAV~sYy>qZjwiS+_AN)Ag^q?T9bT1`YU;{q$o)59
zZR@#xj5EMssi9&jYvlEWKm$ZK=d%_(V`gSiXU~_W%;>5{20+YYp<wB4WVgfJ!FyL0
zOvSAz@*KzvGvO=Hd70jhphHKNAf+o8KMl22`l@|vp<ZWbv*+0L*RH+xtIN*F%2-|K
z{;Fa@6p1_IZl)44IR*O=c0p*Y;mfHkd=t#W(@2B<jIggA%Fkvj+LAKzrlnskkVcgU
z@`eJR6B^|+dCQH4djuM8L_(Q1vf545xJ=%C%^BK!RzF9c2cryo%%4HG&0~x|L6N^B
z`5)-WCJrojFLiHohw;hnb`))0y;8oi9cNUBM?LHWYKKQ$q#^Y^#KoM><({RUpC8@k
q;y6|r+D0(c;t$!tB-`Beoo5l29|pT|{IeuRu_xD}$CtvcgZ~99zqVum

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_493615.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_493615.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7cf91c6fa8f364c3b5fbf49fc03be5da6402028c
GIT binary patch
literal 2470
zcmbsqOKcNY@a@+d|3Z>tNJwZ<A*~5b2&G5}6hTS&wQ;5LX$h!i@opSD{^{-7;AmZK
zq^Q{C5Ob(vXeDwC4H6(B(IfX>utKHiHI*WfOKzd*q3xmSyj|Ndh&HV{tDTuQZ{E!8
zo6r8>@i-B{!7slX{Xj(MIbBo%))uVgflMO>DNGCv+msn*tTh|whIt05Ow_VdIZ+`B
zJBj8h{IIBSszc%76;u@6^s**hjfjdk$qzTw{5U4ju#-iqvu4AUW&F|#RStwCN-Dqu
z<=|cW6VNo$nTi}m*($eA6=tropOZGwWNVrYhGd9iU=0V12E$=-Cqc%J3kZRPqjVgc
z<eaeLEvaM(HL0u46OHy2Fp%M-r)&P)b^6sj)SWRH!$tKC_gv)*8I-jiKNrAMv_ikp
z&l6UU5oZb~!&r_7BMRYTNm(I+rYEuL_Yh`?a3802;*HBXj$8|BfED%HE9)$ACDVFs
zvu=?k;+a#!gTWyp4g^mQ9vvV;Dxw7AHc1dMk^ryQh=ZP|4408(ng?R*tcO3&^<GWl
zF)byB)ZS4!G$!k#$;7*ISWW1?8V>d9YCP2otKLeSI+hb!DygYGscaDBL5N#VCW4`)
zq6YULeD6Tt`>;dAF%>7&7~TR7={0I!05Z|C+dDN>7%J_Ucek5^i!ZH~Bu`QN%3C@&
zbN=?{3r)V#_HxtPv%4Pjly@H~Hyz1~3(Z?f-R0(8v%&*c`JF@M=0kbMvUk%|xDYPN
zrLLRNdGC%qw<tNMq=HmzDPFzVF~j{R?Ob)C?R)axHHZM=Mv7<?5D}|-8Ye>al}dZb
zs^`xji`UV0W}})epaL_(>Tt}4=xb_BVeYYW)G9!Z{pb2BFa`9V>~VP}4<{6EQp)jq
zgY5<ClWzsqU=7Y-qpqrSohp2_;{Rq}sO@tboPYg(?L57qxysC7kinfnelbA!P+F1w
zED;nvn^K9WsF_Ge4b|ocL<)V4THsx~1n6sa!%VO+Un;q*yW{%of*lG4W?gfHg?QM&
zN+-x69MP_32v3P*{2bwj2G1U~%Ec-ijb^daG_emTkq*b?_!UL&A8);i<y1<=J%?k-
z5VTo8F!mNz)H(tEW}<I>cedTyHgkUVllj)YkGdXrKkWW~<jIx!eW%J>PvfniWDO8Z
zOUN%00VYLglnBspN`g2>V1DR*2Z#U-sb{UmBBDJt{6c+M+l@*%XnewlVXA2KCNE!x
zwzuPURHDUuK;8_mb_3AwCR+3~PhBirEOpIvJ#F<r+WffVVaJoqGf%)gzUXY6>MnE_
zGo{Q^U)MeLe*A9y$?<2-56xrCuG8kgGVjdqpZI7&@-9d&z*C-rrzp=$TVLi~Q_h03
z*muJNTI(#F@&4M>Ac(6z<Zd+Wy9hx{HK12w_2q3~rcngt;GcL2a+_o7I|`;VTdjc{
zXK>L<*VXI*Q~jqINMR4dTH*e;9iG}T5LA*7@Uts)y5Jr_#HFj69t_Ev8tn74_)U<l
z9C>A9A8gP>5Fr#xCRF%yIIyavW4Z?Ejf|@>(nTdWs>%x94Qd*_3Od2<T)ts>sLbGu
z7PM*x9{`=bRGGGpiI%*Z%oD3_<ZGXRROXK_JDZAKrLKAB4)fSjN9Uajw=R5h(L9kK
zD)VjsR!u_g7BgT~t>2Azf*;%oh&0-<^u**uI1RrMB2_s|%aCx<h;A1z7fI+uJgX+O
zB(`qA3Y)m>uMdWkG373@+oIBL@uZTDsr|Sg4ADuUeF|umV;JT+a{q)pKcn^~#&NxE
zqU{CS!0cM%5bIv0+^VmMX)GRFML=d+EHb<Ke*4|_H7Z%#j~LG{QXA9qVt_%7Z_Rsm
JPPi<`e*xRZ7x(}G

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_529486.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_529486.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f9a9697c43ae2304d3d8dfedb55cbe5a7042caaa
GIT binary patch
literal 2323
zcmbsqOKcNIbY_2cY_E;M2@sJgr6{e7iUp-K6=`Wj2%jct5ug-@YPH&3Co%qMb`wan
zmNpWIq&>tv5!yqoo`4`#l`54ZM?^2NLZxV$N=WpQn@c$L)Hl0c#~>=GI+owO|Gb&^
z*<WQjgkZI6x5o!0gdQ`(Ut$B<_yLgXNJl!(p|rQ-G<In&&!+{944ifS_@>^jbB2(O
zJj-L0&cB$S5p>~-u+%U}2f#iEx<TNJSA=w1GXm)fN{2XPgqphHX`BqKGs|HrojI94
zrVLT3UpaB?lYTAOaL6`xCm#MAyD__y1<+er&c`-)9oy1UgI^B5R5#GnZL^WhqJ`g8
zF2n5vmo_&8XU{M!=<#*bknp~w9I~+|ZLt%4sps)3*R&ITNjcmSo3I(bkJ+K6#y!iC
z7EQ?a^UDs~5&sq#O`{|?OxOb?1<F}DDyc**j2TqO6;+*zrd1?HQl@x_@}EswG@4f}
zGI3ck0qVx(=jdq~E>2oaVGA)$SV{<soXY0JjG^R}#!0fSj2o)%lcB~5C5zAi^TrU#
zW12G9cek#;&!sLE$wjlIYDQ{Y)h?>mc(L$~I%X8Clu5LdW#mgKpi&LD7F^FP6-{Gb
zX<7lk0vEB01w||BhVtHl4-WPo0tuBa8l+(4NCzCq9?`r3z(G$tQ2X}lC%-wls8%~x
z5^p&}Yl)6$=+*ev%9quHx8v3KYwde)7HaK%wRqp%@`KaMpP#)yQaf^P`HM{LNTwFg
zIHy*l@ybwj&uv_NvzB=K=4dU^TZ{JI{qRBje*gXLwZo^E&nmUUN-e55$JgZ8!pQtc
zCA}hdI|FNibnV3KiMf$V<~N~h1A;?ZYk9L)b(>)D6`BA_8D}_)IdNC^1qG(#JKPfU
z2&>G!q{Ofdh5sM?@j71?tTxX(w2$Dmlg-;)HtcgZcU|y{{a@r_Q_jD{{>Ac5dw7|p
z#&E&N=Fgy{G)x6;Qdg546?JR6WKc;rrY1BaiPu>Rl3fhA9VJl_+D99wA{3oopn(iD
zm9_s66=w`mG~ME&lGjQ}akE260$flYik}K&&}SwaX>Qe%b|wj2B5J8*5V8lT9q>25
z0^p!EdF#UH{ODp&wP$%}^5^znx_;`qH}y~+hI$Fb7WU5XtxPRWEqC<XF@DV7%HJD!
z82Z#Xx*Co-{cA#K?%?d;YB0JQ3<F${=jDpJ65R1D9$pB|hbsHOmO*P11)J#8c$+BI
z6DSgMPLb^pjt2kcVg==v<F|lZM-!+FUz!W>NM+nwOfVZce>RnQo6j~1uIUF5|9fB~
zo$CWy=l{1Kf%&l!Bv%|xa_d`wB0T_T*fLB@(Nxn=_Jg1sc<UcOCpeJg+&oZG%M}X-
zjL`rw%*mW(LTcSX2L<9zII<f|P4*NlmtHCp?g@<<G-WDoy^s{>yvvj?0C3Qw=oaUA
zJ%T!R%|a^Y2L24iD?N)nE1}n&qmR0}zdwKD{CA_y@wuUz(D|xrK@{2M47-_1Mo1T&
zLnSW^8uRvjIrtDv!X%|ZA0uoOQa(Fj(KfAEFfHS9iFjqqPZTWo9o*n)*n0zIteDep
zA@>;X!oj|LQJ>5iACX@0#Tv#O2T<oR#*b0tcO?ITc0Iy@Yn`*5buNZqt49$`zQOsy
zdW=z98q||GP#ZkrBA(XnD2`Q*))8#gZ5wRc*oUzEB-n|!{nd|A?2VP^p4qS)$v@eR
B0iyr_

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_571713.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_571713.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6f4580ad7edb526d13478546b11fb58f853fc5bd
GIT binary patch
literal 2713
zcmbtVU2GIp6u$Gb)9KF6ZlQp*wupcWQ<SDEHbH2_LP3NYLP%sGnT#{Hw9Ec^XIf~T
zHB(bVs}J2b7I=X81eQciOnfEr(HGWYEZ3Tl;7i|D%9Br?JF`=Uf<fa==G=4c`MKxb
z`<*jCscIa-_;vK_;d>H7510^+Sc6#}<Pf@qEM##xlnG`o!}&6w7cwG;Fqie?gs#DC
z@mS0zo?K&+B|Lk5NVLQ$ajxNzX##&4Y-L!FO^KOi9Ji!%I}jqrt)`4($(aO?a5GkL
zVvY}-GAgW~Y)2zRWMWoBJm@w>78|V9d@DXD1VX08kFe!wE8LQO<>}QhTdamT*!&Un
zS#Ue-wv;K9X@!`rp=D;>IHx6+Sg1iNop>*EP(Mbc1Nz~E`wy6MWCsy=mesQ4-@gMi
z7}>^YLz&GM=SpD)@G|Ig-a<os8)(Y%b3L1)p3Jx5+3X@$cKHcF!URNen_VH~%W;<j
zSqx>ci-mkyiR{Quv1+*SxyD(_iHIfOZ}o5$cjaw4G>$ZWkg&sRBITVNl?-AO&SEO&
ziiSmFwo@cnQz>_h3LlI*G?_OXGIBw;fm-;&DtVkL#ZhNP84<<_yLQ4drvfRSr-E6`
z(Wa4tUUG;{W#;B{;+T=MZ58Y`N5@|$yU!QNIlE+-xO><z&l%2evGAI478jguo0#1W
z&X>AD>TV?Hz%lGn(Z;(<<2tPCkg!uM=w{Kv`tIJI-kvu=L#1<=6mX7gfDN1Av!{S~
z=+OqGsI%IPR@q+}n~!h0^6~X;)$_IZcCUXio`@)_&R549iiKpVvbCD5txeaG=^L##
zKCNl{YRP@xp@r1i%8BaRwe{&*iYY#+X?tp^J>KC(*rRu*x6(VWyyzWR6s3!YCl615
zSaE(4JC-32WJXcRx`B_~pm#)GIcmk+U;xUvA>IiDpxI|&#^P@AVU3pgNW5pEhI0Y?
z{~?}W2~(&nI?Z7UuE;9K<z2z$vr4%7c(%k4!T+F-t>}g4_&;0!*dOj@uF(}Z<O(N{
zCJj>29JP#_JdIh-cnMR<!eb*QHdi`CBhyxxm)T`rLeO*gL5*8tCO47BQ8AAl!)D@U
zvK}av_vVcJN0!ky(RQ8~r4lB)_U4KvAiNKlK-CF`HVf#Xsz_b{#xF<0nyMzz7!;s6
zOk)6Nt3aEEpe&u9w`gnvlcMdzmP$b}YOzR-NkJJ<0Sb$XXQ5ba_V4jaD#)#=krC;F
z^>+B|FMxPxQC&NGdggRBeLa1rP5XZR51rq2-X6QF4tfKN@zm_jnVprf>e!tP>09`l
z{LTFBfxGedz5aVj2Sadt`pwCs3vzNnR)Ef`Git?{mp4AiE3@&Lc%|n{6|5e!;FEl`
zra30n*P%qpJK|pjm32LDK$p;$-hu3vJRpSOh_H-J_*MqHLcct&0CNeApfWV@Gf*03
zE(&gFv3%H?%YrLpna`>b{#IOM@q0mM3I98e$l|yNpcWg{_@x$*NH-9wIM{Y{)3CAL
z1B%T|@#-qY>l*LB5{;R;VgW;^ZX(zo%{ex_{m2B?^8i<U7#kLWUwMEg_R_&auk&|k
zw7)T1_W?zE!EhflJ_E!<_meH&p?U&s=$M3uo*wukzNV6{rsv}?d;Rx2H(xt-`P9|Z
z-l6GZHL?BQn#m~9>J9qusI4bkU>_<4Y0y+K@5;fyW)zw@l|zoO=0k<-h(nvrV!?Ls
zg%SyHE{qhM;2r=K1tX7j{W0SGlasCBOtvwyorRH&Tn?_x#*}mX6H_I)IQ?ufXOWkf
zp<i*0YRwm|(H!n0?}CDrvHc^Ey1;SV1C;m;slTI+x`cT7V*6x!olkL{^(0bLvqxu+
z)>BMsX-E&(fV3<iJ`q@LOLD17e;vVey>*#Q^({zDOi%nQv@NJ9Z(u=f@doZi?tDSr
zIDIlwhu=o)a6xIC-aXql(^pMj+i`iv)voL2U8U=e*mXzgT3(Ad^`YF(wf=d4L#eIv
L$!(L0f5^W9Aqq((

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_580037.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_580037.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a6620a136d253d839dde71a531f280eea0e77ede
GIT binary patch
literal 3061
zcmbsrU2GdgdiKY=YkU2ZI8JC3AQ2`#pL$7?{s1BhlqO9BiIG~0T2pCRyz9h?<2Ab*
znuImlNJUMa>YzKtlm}7?i9jk*kPtjpyz*oPp=horS>kk3-dxg??(XTnS$orMC<oGw
zG&A4NeE&1w?)RZk0KrITpHCkX5c-KA?ua&ly?+3(jufO&d6aJKRGM;ddX7o66jG@f
zM~^Go*!@U}D74DXh!4{VrZA7DXIX{4>f34xq<O`sq8Zl{j~a#h6*{l_6#=FnW&mao
zrl|U}Q6+ShO$YX)2wz3%AdS@EzAbT)N=A2yjT9DNnt1i}E7JM#^r$rX5SGe#BZZtH
z2Ik&Hn&il&h&UNDfFB$RwbkU80>5#R-ai?%0+z7kLtfqNLCug)$`ZDkHkW{160M-+
z|6OwahvY(*XmPWksT8(C7Vkh23t1v$4!ut+C`%s#{T5Ah6H8Wza0su-VO&lrYEccY
zM~-#54UHZ-pUWw=Sm6WKA`jbGf;^U5JvrolnGq{$wJOXlc8k;pMk!`FT0FiuRvviZ
zXl?UoCDlDJtQHU7dlQ=Htk_KGfC!-GK4~Vr5AFkQt=-*fyXAAerqCivaw(mZc9-0q
zDOW5>V|Gq9X0cB*r&T>k={&HK0;bJ84it55N|)!PoPs%7mkU!WX7ie?V4q=Xx{7@!
z5Dhr1VLl5CbKqn$j;Tq^ygF~<@SJSwxdq99RZ$lX;EOn@&71p753-24=9A$@q_d-^
zMs$*Vo!nRKE9MkwuCWy`r)9GSpp6}H5(>ecy@2^#K`NTMfdyj9f&9dO$qBguDzYi#
zfD?~HHsWBX`%&XR7y7Sg`m9luGiv{|oSBu)X|3=lc}gvq{f3_DH`TdfKVbdMz@6+A
zHAC$yE=oX`AQ7fkkTRO0N++H@di2;cz`@+Csu$F}{xldSSI|g6iEMOVM4`y_$<@h9
z&$ifQkKPr-9;_B>EnlvNdOmsS)A5_*oAT|h?Zj|3G;E*Q`BhFW6f0*}C32(*)WVT+
z?~RtqNTp+~e<M|G9jt~2Z@>QS$ag*8j(sWJd9QlnLN$EB9@~kumS4Yds$y2g)})Ph
ztMS2V#C!1F>WOpJ$T|CLE!zIU+m%H5%35TjceCyDw>LX(_E)0=_W0ds>pH*2SNM(G
zZR3aN^Y(bHrQ-%wIbPw{p4>ROnfQv@Jbd$oYRjPg@?Dm@c6Ryf%EdqH>kDfO8~#tl
zo8ql=U!*@vZ+Abt-SOO=z>n-Jdyp(dicPK=W}wD;3@CaVSx6c6cCvJk<uO<?-ls@D
zCr;B%0dS4G#>2;nDhV+CEBp$Vr4{<B;BB#1z-d_s+7WFr7Hj!dxmDg0EdMQLtNDm2
z;GRcGHnrPL>@^!TfQ`x$@Ajr)`3wD9ZGM%uz#n4KZLFS_@rcjDDh21Ars|&0(%=b`
zdhmGQt#geVh}n#idnd_Yc5?K!Q%-K2EEyyr-L|bKV8_BxUY>hPk%yNKUD4%YQPul~
z@>)jD8^ZuJScl=D(Fe=FY;;!$Uk|PZ%V#Ph8&6cbj&2JBk09OiF^4$47etb@$2ZEk
z{>h+DH0pmK%m1w915wOQL4PrVAkuiXZ@vk8BLu$bxIO^fCtw;Qu>9LbbrH3-+Y>vn
zxIJ;7Wkk*%xgS8j;L7pki5($aW_E=3N_a<zmERyJw-fKVE&eme`M7!*i4pr{CxQ$p
z+aIJqITz{%0P84+N>ISd<Qqtp=m*6k*T*eUiLsa&B6DE4e-osnL%>s*|631B^jHY4
zgfEq(cgfF?ehd~IG*!ctGP0pc15lAa0&Vxj1B^jnkPKp9Ca)FLB#U`nHRkiCfjJ|$
zq>`4aNYkpUIF&O<Do8CFMQC#@G<)AWh6JCE%(VVIoOuzZaTyjH)xuGG464%JwVblg
ztep9Kprzbf>D><W*r#iccYl28!%H8%VUMj$R@u(qdrUxL%ucy?jYQ^zmkhy&%kkj|
zkZ`2oSzjK$Z}ZU1vEV|wpYWNPoQeGztzekyLQ!|_Ddt{N3x=j+CRZ?>)Hw0rU?VNk
zl$KXMLyl$lEzN1ld|n;aM?oj)3&z*5)ESDRenR43QRr`|t48tHI+r`^0y<5NQup{c
zH9^%m6pODPSvyj9(c>q-8TxYQX9wM55G~ee=U`u)itLCj*C$pd>I{LOOnhv8XgP4L
zt)uP(S}l3R*+FY-oM?;ylsMdg1Qd$a{e&i<&d2u%v^RvP(9c3A6}vY=p~zF);ly&#
G3G2UCpRD2l

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_608628.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_608628.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2853cd70159972d6fb098b89c79e84578c8d8a53
GIT binary patch
literal 2747
zcmbsrTTB#J^v-j4XLoi%DwSs-T69VaLM=6wXqAT#1k-9CqRl$)46v}T&I~AIHW?Bc
z*z|*K(ne@a+)pefYGb46m;e5_!8GKSCM5F1AC`W!{pz{1v&(8|?BgbL&pG!z?z#6o
z?mQAj0l}zDeK+(2kI+*><Ok69*qi}y4Jk;WBB(zHsea0)=_u3BQb?tSZ99&J0~C4+
zEjoBVuP~}hVd3LcG+gq$B%ua)g`Z;kJ%xQ-Q>b5{kt!5yc*iNpy-tMtLT&<_!2x98
z+x&{MJ*ARv1F+l}rt{bqROm&ApY*&$k|{_ErpI(oz+Ocf?3T?urqHH)(b*Huf<C7e
zG(cAXdjh_s*A)JX6=J8ziqG_#{0Qt~`b-yr6L6lS2&**l5LOui?H&C<vG%Ih<O-{S
zqEqA}oj(FV6PbRZZHl+p{ArRUMLNaz@93G78L)LqY%LNI7!(>u64$q02e?M=Wu08T
zL}4~6>mw3}X(NJ#gccvv<Y+LgU|!bb*r1BpNL*GhryFril}a(yi<vW{2KGl~LknLG
z>M$$n)feb-?2V5a1!fU3j`_1E`@4d@nC}dp=sMbog=44Bbo2ztD&`VlB^b?t7^bx-
zd@+q&4CcczaO)~|5yJ#w#^i`z3aq*p$DbcIUx{lYdO{AV%|mi%L^g)vu{Y&GHD)yH
zTBzAjqlspqnw>)!a8x}J*VU%Pco5cua3~`l3x?u~8f@Etu&wnVa4<ijYB4pU)xf62
zC;bsj7FsPWvret}{Ik8O-nsfEU$xcsJhkfarz^9bs_U0;gy+Kx)WW+<wQb*j_F&JQ
zE7{s3S<eyc*z$HFcZ?t3-x68%`P1d8p1EV0^7)>ucc0a{EC$j|S+OqDy5P_5Zp(^o
zR`;^MBz-9Bug&bpjAZLuvi=t9_?qCG-J9B*u1^nq`FiHS6Jej#vBL7xCnitKoK3%z
z`gE=%qx{4+Zo+Ypwu4M%FkxO(jZrNYa>|Hs5os`Xk$(dDGmWOHYsH0FENP1)ltL+L
zfHoWoq2cX{mAXYQI*FR3i_&|Wl1Nc0DCB=(kC~xnKto}s+)38(<Q*|t(hN-6WK4S4
zn_u063Y%{^f5YbreC8$k+w%+h<c1cVLZ*<(oJA7fhuP4mB1<&p6k|N0VqQ_l!XY)}
zG)&u1(r`(jHZQ{THT}{^&<d4rB1Lz+UCgL0$pIStq5CuvHgJc}l?J${gvTTXv%OvC
zj@s#BCyq{{SZ7&UH9+ickI2!>ihOvY;)*6G5~|kJ9*KvbZVv;JV^x8mUI)|f7P?-3
zqiVh?^U=ZwOBMU?HQaB!+xTGM;pL^)li6LTv|13dTbD)-F7cRyo)j9w98|9o!>$47
zR7Oi1=AgQbal1+}pX*N&SDe<ls>cj;63h-l|I&%UOP8RJ<otFy-fAtd{wjR>7cl){
zp%rn*?1j{YxrR)`;|l5C&igfYYaWh05&Nv}6(KO&m}*Rq&5b=SZ@8u2j^2zu?0zEj
zSRHHLQ&#61E6g02JiYApFT1@k&x$EAEibuuJ&${5g_MwP`9cJ#EfjS8zm<A8exn@u
z0#@!WLf}(jknq@b`3)e~P#7iQN8uvGHc1s%6g&=eJ_nMF$qYMHSFi&}{-HOKLbn60
zF#p>QOYE2kGKuSx=ymenp}hqY_8O{g1Vgf}23sWBPO|m)USPBWg9HL|p-4QYN-TD1
zsy-SqbO>*FLWKu|SAs*TtZ2<3rjx56PeLx1uh=^{4Sh@x+Bu^g0-3jo@I{!Qh5Jja
z;~PFyUOfq+oatT@O4AK<4NF43)v;PrcjNs0`EM^+$7g!8Y~?={b0c4w)n{j|<kKYB
zM|%w>9LV|76oKb;6y7B4&SRR3@R{MTkxO1C95XO~PL1ht&AtKKZS2jRJ~$YUC^u2A
zEUJm7yFD6LMkDHBtpiBXDfEwF+F&S(dWw8MBk>nhy-K;JD<><T(IWN6CWC0-2EjJ!
uN~u7)V*>%ml-Xcm=k4m7)th8x^8lj6U)_~d*|Sax1$Hm__e^^2jsF5Hh*@#~

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_619005.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_619005.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..54544af5a42640f32c5a2d9879360753a8059ba0
GIT binary patch
literal 2686
zcmbtWUrbY17(eI!YiWC15XUCdDU;x;0%9D5#HgG6Q!K`?X#|&>o8DU}l(xC|f<kV$
zOX4EU9;oiYx-AhC6G2R5Z_Mn0__~)hH48ao35g~PFAIuKd)jwyTc`}<{+y)WIp3f2
zec$=c`F^)QiJ}X^`2ENG{bwBrJ*7-xF!{w=2o^Vyf)pG<J-He8V4G)#*d7ie6%W{c
z3R`ot!dykOc~Os`uvbx!W8Dh}oRdMSbKRn36#MxVYTp%f=C{$Q1b!_1*8adW4+Cg!
z3=}df2w+z5Y+j#mzQK}Nw=6N83OmN5V&7bm)BIAw3Ok#RIR>(X%Pjd%``o6>6b8Xl
z!ehEkhrJR_7t{uQ$tWnq>;UhkossFLQYz0&8JedZ-CJ}%;qTd+$n;V>)3eF1_^QV-
zsMiCoaIS<e7qKW0o<_`NSCj|0o=0g>9>w>TPszk)shx+<v?CXJwlmxCna_mYH4KbK
zk)Q9<Xu((Lovv6w{Frb<vOehN31dWvE3U=*G<ir0D@2erIohWZE)tU!!s|v%Q~hNG
z2MBw1*dX2^+0epQBps-tUfINt5_fFaSXUM?qeSRF)zc~kh|nT+w0_h=_;^^6hH_Js
z2(eH|2R1hYPt&8kJx2)}R<00EkqwzRU@1Wuy$nvWXY=^;)B4LXZBUQPLAAbL4i3sj
ze=J%n_o-2%Ue|*4hB_3l2d+MU5(Cbw$78x$7ax^CF2Tu+SX2te6jf?$Xg+l4L(mXm
zP}QPpM0*c{(s!aWP)!THtU#h~GLQ_UtFoS*R_l_-Tf{Ak+fv=h-tP|IZobt#b#9u?
zzI!ku9<<sPU#D0W%TuAGL@n}*RROunZj_~3Qg0{g(_I<Y{^|2`Esv_^+GnKs&oi}w
zj4NQBTyl$(P06NILrTBiG*xjQPam0f+}S<XIA8r3&+q&Gc&6&(C+?G03%K*Wb>m!`
zOI=9Drra6tf$7lPCyyHDF3iLh+?l%0jJMNjU*d#o9pfDn-KnPJXX%!yk^A!8_UXPm
zU(8o5aF68$#}B(R`#OH%POU*HP>_<spb%yQ&0Q!E03J>tg-PI|=e-5sK$~Hs-~kP6
z1sg21S6-fAio9*rwAe)d!W(N)aJ0u(0Bj<KFEsWWEb)eAh)HmUSnz9dHW)D`Ycd1A
zf^=h6gaVAdM(<eHvv1hHwSHqiRC+cKFc{#m8~L4GVFZ;8Be)pC1&0;c&k$ZQM&l|G
z6m=vVR5buEq|x%*NaA-A9)Ka(Pk87aB}yD2fD5Cck?>=x7SoB4Ya;Nbgh%Y2Awmu^
z{Jge}x+w=jyPKj3VWFJ~*9VZI(?E7lYrCk0<FY2l<Ep0B0rx)q^m{-ov?!L*9x1ij
zUJA%tKG~b>O;=1+JQ#kMm`N<0e<Gf-+Lm0t$pgs)sZcufp!H#3Ca_TR#C6I#`OLFz
zvNPG47N*#&r}}Q_-r$|VxtjUC*_vZNyN_Ef&p6k_k?}K&PH&0@GASm-l$>?Gldid4
zd#iRDXDjzFI^C15q$}0%m6+0Rj$I#{s`@%XHwZ6FcwSibB9G5Ht?h<fUuh0nLAyD=
zfyGTIIWz~p1a(i~;ztc=&lH|qf;HIzx@XfUeDUFVGDktDu>ac+NBx)xo&?|JXI4sq
z(+&Y4ZbQ`#DJbiz)BuV-AX_=HNpaZE*q223U?dh*{Ty*<sy-Ys;5F#sF_nV3BK51X
zq8)^-IxPjg=-fSTw<F}CcSM)$*QGUs%?WCJ35bQ3y`@(Bss~l<9PhH)Cfc64%2GAy
znyjnJI=Q@S&+Uu1E`Hl<wNC^xT;)GCb0SZ<)n(t5-=$SU9PI-j#FxvZE&^Y}VfcCw
zXJMtmUpz$Efv{meZ2Qo5ro^2)u+$feC^N|RnLC~H=uk`<j;P19<FJ>0hV>IbR#}Yk
zQ{?#-iNB$p%h++Pa=h|6vjd;TYb;_stM>9mV;T0X9YI)p;jF~v&s#9^?ag|t$K7^>
FzW`^BRIdO4

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_620806.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_620806.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..258478b2d0606664a793a066ffd1f2edc183a366
GIT binary patch
literal 3307
zcmcImO>7)R7Ov{QY0pg0_=i{<lPIwg91T%oY=yu|!NiGU$BXSq5F&6QHO+L}9((?_
zx@}_9Bibm)p522d0+dNOFdHFA){$^lNLZXAPDorB*+NmRSF%Jdz8M^$)pFrgPtRm*
z3}&_3lDev1y`Oqj@4c`3Yen%RXdl1*_mM*~Lf<i>+(d7(aT6xjkdAa5M}wsi4`P?*
z68xZmk%32DJ7v|<sB?xe8r;0bD4pMaeMr!SE5f{|Fz5q)8DwQx7q19|H5Ct}D`?Qq
zA;Vvh4NT&QZ;fdVQ0b-K!82+<mAcfkXF9v0aIQ+Lff*0q#y>cACJUE2qd;$MI-d9V
z8F>dut|D1umG2E%6@%Ma=jXjW$*vu&3uWs`tcw}{|6vDd(+&Z<#tuxuIja1UDu<~|
zbZiI8XPAQ3Owg8X|L@ZCZ_-ojpzRxj+sK4$#g^Pz*haPj5l8QEIvV13gMFK0w%Ja0
zkZ~B#<M3rprq;$KZk3);=9Vm0>4{}drmpI&)fwZR)~>a~Tf7Nv_F)Qg<&Lj>u1tNE
zy=`j4uCwcH*Fu$_?hcQ<^DMG_g@(~2ipT?mCCwVkODd~sREx(|b<JJd&lpTNf~k<u
z%&~|>IV(>6X_6WyT0)KK)HkA;nq?6xX+%p78&rs=G@Xj3l_Ex@f#QD3pBuMmD4|&-
zc3Cx{*Nw|t=t&w#jawCF6){Pe14Mw1is_iHCQ3t+22b^!JN<&{)n+vX6`L9wGC{O7
zCaJ`{XS6#4owf+$%kBtUQ+(NMfIasAvi;}f);CgQ%uH)hqjf}!j%n6NDtSa3Hj-AW
zNusTmkw~`!)#@G5f{QTIDbqNbo>XC7g(F+3q#8}>hI+jHsb`-$4jd|t86;`M$wAnb
z)q;5fV&I^MjYtX4^=JF@%}c>O&Y6{9sET@U=;$5tY36ojadi1m?|bdnp1b;7p>Db1
zz*ofSTlp>Ks#2f3R8*QjI`v8K-+FIp3wxFhb`+Hkr~Ce|a#odw+)!3!BHm<G3FR7Z
z;QX<?@9MrnN3pK0sI)C~FCP1{Zt<DB=k6to$Icg(^Pmx~&t16DnYZ#iSJlFs#a->i
zaQniA#jY=#7kloi_uec%{bDivqI33v?4R>xeK{$A;bv#SD)d}eZ%r)dUvw@E-+rsO
zw_{m;-sxNsq?xnRXJ=o@{W(8zQ@iz8Vfgx63yq7y7uurl?!Mx_liv!R8*qsz>Omlz
zBUUCZIFG>9&Y&4QBhE-WfpivS@eo%9wJi6xG#%gJ=Djk?a8-r54X9;t7U1T;u*d8C
zUqtw%S#egH#k0tL#^j7(vB$=3wormEo42{qKza4isEcLz{S|%%o^5^y{q6Y`eRf;(
z9=u^>^Dm)@Z-5HXab1gWRMf4>v_U1^n21FU!u*diq$xM{vazz;xCGt%!j7Tgvs@Vu
zt1i7d<eufM0B(8fLmW7T2f!VvREgl89-D}WROml*zLPY84tbn)EYdFCn9Q;L4m5HA
zW>h{A*AlPmTF2DxH;9%_8|3JTcnYx6?0`v$6#+q$74yFxv?7P*0@*;WJKwh?M>bR6
zi~MehJOP3(@)DLZ0IVVaW^{y#03Ldh`i1~Tt+wM-oH9ttbU}hjCGd>+sxT1{jo~Wg
z8HfqP0IrYDWBS1KYp(&Mojh4OhtKn#JOdndGV^`tegcP;`nikQi}{v9%Qw3tpY8g5
z@7=xkCYF@}r+dX8o;#d9oSVo`eAC!+$M`gHJ8`dj+5dubdbMGf(|4bBKXQCfa=IS+
zkr<dgHr;n$4&`|0=9H|G)0X5v<Xb*Ga{b6HywvpMeK|1a&-!z1e^qkkwW+I9h30oN
zOhI~BBZ|^`2nEB=pWGXYf_Ih1qQh!#;|6rsPz+_@2l5gGIfJWf5T5Hwl4N+uZ>F=Q
zm4EYWq;n^Lr}O`_9f8@g5u}<3skT-N6!{}`G+-H~1@Ee9sBIC>t%0?ZTNv%YU?HJm
zG@eQt5rO)MVUEWw6M`O_GT76lt0RV{lczz<WLLpns!~)Rb9eAwnF&*MGl_J9%qb?!
zYRf^Zp<1VBJ%}3jOhZs-yC3-LaxM9mC4V!-aqs>QU%me72N#{5+5V!?^n1l*6l`z?
z+(<=&q!sodhoPh4k}pT&@JBEX4<(h$Gs6DfDL)#sXiYSgG%e$Dnv}Aek0mYl5?s$|
zpmYK1a4N3fMx}aT84I<TNa^Eoql5GU$<V}%L$}UjjK4#{e<I~yXwNG4%`{Cnt#eKI
z6o!m~C$%rzw;p!MT95ppj*%NY;)0&wv-LQfJH3uzC^T%aVdFT$$`5iAZuq_nqws;H
K(81||>&?$NkJAhQ

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_671609.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_671609.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0ab63cdadaeef0261ae0cdc618a88392b28db28f
GIT binary patch
literal 3053
zcmbtWU2GKB6~1@=cD%c@i@i3AEhu(Eooop>ri7>!bust{3N{iD6b#a2x-+)d-oMU_
z9qi01Yl+I9_Q8v)iiJGjqDqAtsYa?4izmcuURW7L)(w>`!HZR?a$;Il$xF_ipWQV9
zk*Zg__ug~Q&pr2?bH6*EOHvR)GiUxf`p*DDPblFx-kWURgvnK;A{D35kUQcb?9fb_
z9pW(3@R(!AS9M2~(YUej)-_70?2FfjIhDK2EqV$=0hQN8RnSCO4_xMk>M9<Hm(fs=
zL0YgP8=AuLx^=2KNWw=>o;rF$K68AiS030x4JK;6tOIEl{+s{8^n51tZX09#S#?zL
zqQ}n%Um?j<Bturv5~m@KH5y#irax1$B`$h<PQzk8Y=x}4AEZ~eMNhKAmM{*M@)1k2
z0?sUIAu9}#L%(HIG|V)EeT$*C=}wkJIh5ydSf7*MW?`3GqsRGN*J6zx?{o6?HD?w4
z6IMrSn-zJ^o9I>_rXkLESpQu4h8lZf)s8>2>a7OLu~6fuvqRN8&mzq=G>oQDoEy|>
zz}IO`<Ct)1#TbwCgfUYjnA5W(x{{WYDiIW2$&6@(OJx<6@P?VywRnu+0m7b|Fi9k>
zn0oS(Y(TGSm!6}iNGLmDR+u%!6cN1Y6nf-iz1=-J^-ZUxLHJx!mDBE!AwqU|*Z|TU
zfu@d9+8Ke)nL6c*&IsEPe94G`o!0NSZ{F|tD65YfIVGWWj4Fw7#T?CM_9`P<#_TZk
zM2D%Ra~(i+c*io~@J23cX!~+gGOWvROf#F26IoT055CuV@SUFlhX~`Ep3zeJF4&f4
z++ZN81@x>1NzwTMd!W>|65dhheH@O|P-{{{@nTtO`}2{%9RJhtTguXomEB!ssjJYp
z`clrC6e|wfG8OSAYf_}R{W>lkC<U(UTIed*cb28jrM~3@59*iSyL;+>rhMRRSvm_E
z(T3u=>)j=@)PF@@__*A(zZ~7abZ)ulLECcwUHSgU<#$h)qo)hUo{GWwfE_3brE@pC
z7tDqJYx1qhCG}qS(#Y*k$~(IriN7p#KjwtlV>8F*J}CaCG<j3G)wnQn?USYL%iKL>
zIdFGZdDr1Dxb95|1=49Q^hW3swV*;l(Se=}glZPe;#q!HcohWM$i~Br394=zdm)tE
zVHUkY&oebw=LJ{M#x?-L|6q?*+28T-7v}gmVGhqB2e8FFXHqD2n#H*QW3d)97V=lC
zqssf>_!7QQ;j^#Me=)zJPorh?ws0q~=z%^)7JCN8#X-U)CR8QP5MDK>avBj-Z8DkA
z)?2~P1VseD(HD>=aPuN`f8<`7AkM}<Zq<aoHu0Wio3$BVa+m?9@F2J&xc3X(Q<IZ`
zM%+N}+3qSdIA!D%ltCS9EkM(M1T!KYN-61It4h~&^GCXp%W3+)L#b>+Nf})*aanJH
zps^de{}#|=F)|;rL&d(*$rUlamHLWjn+3fU1RaFbY2n0~suyvA@Bo8}QNjZ}s2LI%
z25>Yx4-$S_)3b&H14M8kF&?O10E$@@EeT6uiW>pQtXehT;{$#8A%NE5!|s^^-bwVI
z0_S!38=pe=EjTYV%wMoCl-d{CA2!GT-t^hdyF2esK9U9teUF3D`91cY;$&&^;r8}B
z+TYT*)A#!x1y2-?uEm-PCs%3rABGJJg`Q_Y#E0e%%$!^mBSjXvdC8WF%8K|}sr|;@
zYkP0um6o5ZilO<S9V~YKUMd<_r>{&ewEZDZ6@=BMHu(Kp3h=^40}4kAzj9)h03R!j
z-cRS2Ux&$6ltg*>gt`djkjJ%m6CT=1G2~f`9rNyQ#STpT4;>4s%pssv_W!oSQ9Blb
z;^U$C*0%wrzY84+nVMnB3B}OlPRRU^VQu~JbBz7Kpot-TB9+Z(agGFZ&6r4;2BbbY
zt<fh+l}9y2)jL7VprN2IlAGH`X9w>!nKWdlp7dXU%uy;#Z(9MaMYa|CH^ON9ju}Yp
zT;J1ReX+gNz7lMMZ0>BmasJx*PcIbu=LX7L%MTS3Q8-o@bTSnW>w91y{Y~gd)b(Xw
z3SRpOco2!`&vg3DLD;dRN$L{WjA3e*a=KgNY%*gyL2x`LAvXZ>NH(S3M$R7o?M!FY
ziImo*_kt~oFGdQw4Hjek1ckpu(m&9SH5{02nQ7Tzn(+|~6%}i``u3H#H)0Oi=#gJH
uQF4<-OxP1V*odRWqZ<f@h1ez?Hh+$=^tIT6V_)@P6n$eQvU?`vc=H`doTv@}

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_724790.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_724790.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..edf4e1292e5eacd5674e1a8c0ab5158d5322e0f2
GIT binary patch
literal 2938
zcmbsrTWk|YaPQ&s**-rK$4Q9-B_$2GqA`h}h=Nicfe@M)iI+-1I<CG;;>7Wpy9<zT
zE*FW4<O`=#6+=G=Ql$ohRN5~-tN!-ON>xQ$T3Mw(`7?w{ZNEBuX9tr)LF!67JCB{2
z-I>|B`@!$`A{f7B?hd`dBlL(6l@Tf<E589Ui)18IDb(+*R6k|Y^eEHMQb?hOZ95fJ
zXO(G%9TuMF5lUuW%pYK7_A0wjR_J%jE(Hx&PEln>=3c^gD;}AL>4E8m>4PaKo`I0;
zzsmM|S8ouwiu!#tQhckvgmEewTqZu^SlHit^uUMW@t*#JV&8LAJW+j17wl$WuGG;a
zJ_be9$ruKD?U1R3vOMd3#ZG#4r_c17`~>)^(qPwGhImpYzfkr$0phG+`b^Jj>3N>h
z^P7Unjew<W!1SAL8w;Aq6d-cwQ(8s?^g6I_(!@6LWcrDO$jTC?BFTnK%8^#-u@$Lf
zu}aTXkz{Mkz#4DC=Y32-9J94m5#jzF5i?}g%FI1>f#e59Hf-8fs?K72d3FNZYF(98
zcnxcZS!0HWeQUW0RjSCWyXUHSq|i8ua&e8MWtn7tu%Z{GF*_>hBiN-HLy8uqG&hK%
z9HxyF_GUD7P?JW*q>MR9lhT6<W>cypW0!8Inu1*hF!g8zQ+=2@I%eR&sAOo#OQH@?
zRxYif$FWZxGggIF#5m^470z{uhY#-S(nzc{QeN1VNy_4=v!pSn4h-l(IxEoR^n|w8
zG<GM`V#d&P%oA5O<{?KG?OQsiEEy8^+E=jIdIbDze9`#(WbC4<jp!LEp~Qxy#E4`J
zsp)s6K_zX(bS)7xl+jEKs95>pc0e+!uC!&wMc|7N2t!Sa2~}3aogLeE?%D<t%#A2o
zT1jb}z%i*9Jpx&=&{F~VgV+0}`|{0;LX&myp%AE|ivHT%*@D0M%l%*V-0qo|?l&#A
zbQb)b)}f`BN{aq)ZeUs@Tgpf=5X`mStjTxf8)jm2@j`7!A<%LE)Pt_?n;&$4BYyWu
zVaLfr;H1^P6s*miy16fJ<hy6Yxyyw}M<H0f@p56uu|n{eb+{O+|LlCeC3kTqIM+H~
zclZ2!!|hlh)Nb`W4AsuMXWV)BT=KsDV`#V4Q><yYN#(ca-7{~_y*J<TEj7RS_6LQU
z4(rH6mb-R%^6=D0x$)U6GglTHw#-lb#J;}*(Lp4;q^>XnN!4nAqty}+CZLW0l0mH=
zK%)Aokall3#W*0>xNC0sa8Owurf14M#SPFheU-0nfu`4PDG1sHZ89cnx~92lx5=BH
zd(1+)-BKVuj-qUQc_Z;xZlr)ZsU&Aw83OP*{i-%RO`C8Y;<3{Bs-FA{+V(UB`|YMz
z**`$TNtpPv*8=aEb4m`g2|0No%3!wd;E8>9Z0soMBp@3tOM44e%<oA_qaVvs=ft{;
znv}^XTHBtKnvha@Cm@b!Gi=n`0Q_m8hkW3=Z`zkTl<%6`P-xn=$hW_M_1ML%<Fpn~
ziPBYPqwIQ*`n0z}qO}t6pSgUdirGPEC^~6(&NDrC4p!$1?()I47)Uq3)Vl!uWucOQ
z>guiDrEtXReabQdXLUXGBA0J!`(*DDAILFFe0@H!#D{Zd2+1u)n(qsL_&66=3Lqh9
z9kFka0As6zG$gyAZUQokk|+xaJWIY&RF;00JW@WD6lEEc874Yw#%iC2l<onU%=~XV
zEU{xEC<#|QN-vY26|Efr_8E$9hzUto#CFKY7T_)KT_flK0f``XB~ofyiL%(ODf(E-
z&@rbcClu0SWpPN6WIJ;@2?fc8lY~0kL%G>q&_(z>B!;wIuxBq!{VV_r6$2rw8?sX0
zG#R%JO&$8(Ta#<ew=Q~{tpmmN8*iPyar%ohR`*n2fo*)<Z9EdfR@|vIKYWmEzwdxM
z9CS|8mV)or7<6pRS1`>(<jio=z@CJf)(z!SMzd=Zb0?Ivu4<S`rVTqB_8qX#357VQ
zrsO-w_Evd6qpCcXQaZH*V3YI${VsqKLs8TtB>as0zo4cf<-XQ9*;t|@)b0|8!jajn
zGh0h;hl;g-ow}2HLZ}r6(Soz9EkXsCgqrKU)4e5z;BU6vGH;kRUaV^<xqw%UZnal1
wSsNkdf`GMbb}%0KLnRO4@u+eA3c*(PAj<!QZ=}MHyC@Xgv>0fa^x1d$2UZ}P(f|Me

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_738982.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_738982.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..39ad71017aa57d35f96fbbcd4584bf979cbdd0a2
GIT binary patch
literal 2747
zcmbsrTTB#J^v-j4XLoi%DwUUkXwfMx6trk7(N-Ql5KOCmh&JoEGr+>WIy0b<*<?s)
zVB-hdq>a#;xSv=|)W$~BFaP~<gK5YuO-SU2KP>%d`_*%2XP4E`*vC!go^$Sb+;i`F
z+<7F50)la3>bt=oc!Zu3B0qq($Hp{(Ye+!~6+wMDNcB-RO-GqNmO?5uWZQ8x9H7vX
zXu-kzc!g123JV{nqM?%KB?;BfEBqwe=PB&tnnZm9jZ~pv!#hSv?lmIZ8*&ri3=SXz
z-^N#z?J1RX8-V4;5S_<1p+YY>{G{h4l1xETFg>Pw9QG>GU^i{%F@-kW3(lT!7W4(J
zpnkdn*yHdey{7PAtPndzR(z({<cDDw(`UK}9EbBHMOdYYhp@^JXz%C;inUk0CRbPu
z6rCa;>HHA@n#lAMZBx9(=1-F>Dbgvve@D-x%z&*^Vr!9zz@X3=lDOWrTEI1OFKguL
zB?_}qSs#`-OdAm_B((T|CP#x|1@p2d#|Bi)M&h!9Io*hBs#J=p9?YB`F|a=>8(R2E
zP={Gjue?ByVQ+lIC@_nNG0dMi(bpO5!F)&Xc<1{aSU7s>bbEJ@tYR(^R)WzSh+$fb
z!WYxX#b7=h1GlbV7coo_W>k*orNF9vas2sF)8)7}tS97<+B7JKhGk<g9(z+BP-8}u
zu7#QmHJWGws>wNo0Y}vnab0apj0Ism2!}G_v0x~!sKEpK4!(1+1vr==R<)QK(Q05*
z;*<UeCJU{UmRTp4eg2uARL^YPqOaQOe4bkI_|uhHPu2BHH^Ot_d20UM#htC+fBs<i
zoy*ysN3xzH*3qS{MD7?rey}OB;`67=Q{A&iGv#yLS?^w}V@V988?$0<re)rr-PM{E
zTdl4oe@XgK*1t2eEi;_0YtH(ctz)Z#Z)Q(wPr5GM|K;nM{ZE9wR{Ju`PaU5)K7A&A
zAoba7dq(+*ZP<Y0AZ;6&%3#90rWzw!Eaa3C;Udyt>>~dZ@@EQ7QP+wKu~^a;M<|6-
zR6lJv6hcE=6)Sa%UT_jMNf)K}7A29QQc%eM!X7hCO@oHQOuCb-;mJE<vZNW9w8@zC
zkT<`&2^BWqa{h+T75L0c^ta|0^vMk^IE73hlR1MVz8ABh5k;10%qhlLLdCqIj)p^O
z$Z43ipQPcEKy6%r>1+C>k)RbS-$aV;c&nIEo09!B_(S(<By8XgpDPV;PYI7o3}$;e
z&%SS`i=8++iDIo~Y1II+yDcI|FDdfj@ruiuoJgozV_PI1g1S8nNRCwnf_g1Xzgy^f
z`HiZ%s?5jpA1+qBb+7(@!`+4l{SPlKww%cBIH~OfA-i>H<lqvIIp|5DLCit*DlzQp
zhfZZQw_*;e+ZeN}6!W?MByq)QovV7xKqtZM0Q4`N7`%89`bf@im*cJ04C}ALr(cEX
z4+|}e+h)$E&d=6o>K|7~_qN}!xm)va^oiJObu9~lnTAwDdUSU5ae4hM^>*}T^kLT%
zq1$R-^`5jkR#{<s|HP>!w|~j)g?UCyiD`M!z2kY@J0qlobn{gaq&88|@&8up;rR7(
z<O^82y9j|#g+an&*X1{WTti`$gdc?q5ZfeGTv6~i(D@ulGA1+RR9(RiAo+*hL<-#o
zw8H#vJ1ntdBFH4JSEAR*e}}dYChRp--3W$cT@5x%w4G#Y@4dii0R{;K=0cHpOqE#d
z(o}sUV(1Xw@VE*O2CoDMRaw!RKujlBL7s$MEMKvAa2ook9<*~tI|MRs6X6RmK@0bn
zSjX0VsJwatLOI>FDwL+{XX_V*I;(x9ruN3UxpUv1w~kHsWZBApD&|JMGOO3lTFIwL
zu#ff{OgND9r7;4}>j=C_*qz5T7vVEQVI!BkOgLs>{;V3)<C=W~w%gd7JAH5<9#L+h
zTv=2TO?O)~u8c&~!&*C#q*Lghz_iX#6!jGOen#RisCtERO;t`*KBGnIjSU9TzIB4F
v*OpR&bo)92kSVjl{Px?`H>)?u%Eo>~iNCrlsj_Ds6bkHG^zWYV+8h4`Kjc}a

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_74175.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_74175.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2314375a5e5a055781b2a1e0cee80771976cc3ac
GIT binary patch
literal 2746
zcmbsrTTB#J^v-j4XI~(d%F95s=#&<UMNBHuDi0qBrq#3+ZN_nDfQ5Z^W<Vjc$&k>n
zn|`oO+6b+Q`-#OwZEQ6C^4}jfn1<ZaghYP$!_tqoUp;qrc3BOLecWX3Ip?0oJ@=l+
zoyUH^fM6U<eK-6AkI*wh6b8`t*h~SqjufO&5j2p8)Bt7Ebd(ujDWp;(wjD>q0SY~h
z79D(mR~Xf$u<&sz8Yz2Gl2C)Z!cVgUp5i{PX*3|vNEM1Uyc3k@UMIr+AvXce-~cl4
zZGJ`Bo>ED-0a$*F&;@J@D)gemPkLS<$rL38(_^|PVXqPmcFSe~Q)tt@=<Eq+L7&qK
z8l<a$JqcgZYYP9x3b9jS#b<g=eiU{weWr`RNjOi^534ls5LOui?HvO^vG%Ih<ch1o
zl2a5ST{r?j6PW>`ZTfGsh0`R<N_0x^-_bKEGid9S*;*tbFeo&EM6Q3m9&nA^%R0Gw
zk-}_L)<;DS(?$df2`xUP$x$h+U|!bb*pQ0ZNL*GhryFri70WTzhncfu1`b4JLknM%
zbeI+O+Dr5V_QuDIBC~{;!2G#W1Km;|=DVbm-N(AHaQw{K&R&VEVlEL@q-Y+*Fs()5
zi)rLyFdvSATi39Q7$yiaE=TloVAa1o{yg7uHLi{72|1*;49lTW*%*$;-j;{dn9-tZ
zp%z1pCR%`MaSma?QT0SzSDO<P60A#bC?g(|LUBcv4z;x&ItUERkE&Wsjc9eSCvi!C
z43mXc%PXwYE55*NU%GFuVaZo(b-zfhdIFj1oTui-m7C%D@B+2)-qP;&?>~FE_wLo)
z?xQ)+QS12fb|QC;A3xX<S@i`nmFeEO<Jrpj-kf*8)wS#oW}0*U`s{&)KyFWa&fjkJ
zEC<RmhjW45*&W%@TtjOv&}yAn6MVD#()%(EnZYmL%(guh_FJ7REI)H{>SXF%=1}_6
zxz4Qe6Wg>2$3fZ-GF8BYc}+FOv{=ZgBEm(azt}bY38c>qnxU?j)?ulnEsjtcrKv&M
za43XEwyRa@HofTNX_79<?rka}O{JlZ|Ajp!MWsMPVW!<l*6<V@F<H_JOxk2jdc<2;
z-GT~R=s17F=Zbvh75dxri~8h-7M(h#kjb1wBHxeM(3m2NH0BgzBB5elQOCm}HRSY5
z+fUMONuV|_!Spr#%1F=(Rp=olcf4K9s4dAs8vLRAH4-*(htF3AxTl22MFz8d-RF<l
z>0&32PNG<ESz0YX?Cyxj(JP94WU}h2CMOcA*4z<^hoEea0Fr0bfS_Iv)9)6#QF*gw
zz9#$8!iP&$@7!;E&~&fq;ozeyO9xKncAeICgOJ_1G;(l}#~iez&@kqpc$FA-4ML+b
zTH7%P#cfR3Rf_q1dlI?Qw9XejW}uN^b_m*+P7GeY3~eOux6AQXYlZdK;nTl>=?@F7
z_;<`+OkbR9%r-u$67TPPP<OBH(fCt;ztyuM1ZSJlO_}kz@h6pyx79n*ThT{7PlaBq
zbIp6&>RMxkRNK^<Wp`lN?S*;PpY~_uCHJluaqp~<7Ba10_(5t51)ace<sOdTs6@V?
zmA{J+_*5JuJa%1v1ITq0MoIWjxCF6HQl%9IZv$P(fh1!xBTm&7?Eq4E=S`&09Y8D0
z|F**tJ0^lm;`&8;o&0ua@4|$=hN>G<NY+)URiy1CTYvv0#sOfEKwvHuiN{ot#V$?N
z$0CLf;SEo!@LuqWG_1;s)&gQWxeD?k<YW1oy@S)w$92ih8SOC093;Y*V1gDND6>v%
z_)ul-6ofL>vnG^h8s{39ga)f~wXXi=h4~BLUbIf6`f_abKNWK$Uxn3gXRYYdMA%1r
z1122I`_deN*L4h@B<wC=nv3w6k+6|ZUM3tfFn?Z+>2b}z0o!ft&7WQxibs@NC|?$}
zMAO|7jVogj^@!F9B<U3T$1rU$6h%ElzMql*7gW1Sxn`=Ts-M$->a9%%(Y_6WZPb@j
s!A$1{0+6k+!NSfvwYO?F$;xIMqWr(QtEr0TT@(uLSqki(^4c5!1q7H`RR910

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_757083.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_757083.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..97495590b317ecc2430d82ee3d75695e9414af2d
GIT binary patch
literal 3146
zcmbtWU2GIp6u$Gj)7_ojwo8dLAXID32BZ{=n5fl4X$!O^0VGnIOvatrcH8~)&UB@9
zHf|$EHa>KDV!;QiAptCjZDK;hQ^Tt-tR-5nm^6`>zL?eGi%*_AyVKnwq!@3y_ndRj
zx#ygF?mgf1ds%iP7`H$9W+W^j^cxkNQB!8tegNh&(vZeP(O`)(gN!Y+F>a7&kj{+S
zew?i(s<Aph>fN|TC5?N^I{%b);mPY^NfR&dv*iGTE{G?AZz;@ct_%EN&3eYt1vKbp
zk?vl%^-M6qnpL`UfQYA#4jxhZiP)v|9_j2N-a~yS4j)&_tJTs#sQQ$&J{<hkerITX
zOqfe!ly$fY)tK3`KJDJbl3lm-SZ+(26i~HqzT(s2G{%x<%P}WmG3~WHR?Rc*tJ$zm
zw!D@&2A<MBOSW7#=eLmMg-W7NSq+8RZQ$Qxsc#y|lBtI3${Nnmq-!mvq^;V=JKB=R
zs(pf^N!L|XM|4hDp;oQsdn_CO#vCT0&bK({T<Q8MfAGQ|A6A`JZ`mHI^0XsVvMYO}
zcMXF<6DY_JU|R51dZ$5#@G;dG3krlaqr{!WiD9h9l!!(|6|3=Ko$%3wsu9636Ic%h
z2-8ov6XPcF#Z(hV&MOAYntuK<d4hNn<L0`uN|?Yj7fhc5hMPc`7K#YTh^E9!Bu>Oc
zIBbAeq9D^0scch_lP0Em$)*s9Fz1Z`_}TUE@%Ou}A13gakyJx^>xdc}Q_Yb?{1tUr
zkDILq4z-$kEZGWDYxzJX9NS1H41I5MLV<M!4rnIgN+_Y}%E1E%_r3lqXoxtb<G3Eh
zJ0UDRg26&PGw4wxlKs>D+5UXfl6QON$OEshN?MWYb3+BW>Dr;|N549HL!H~c)Z9^!
zJ2KtNPt~l*fm}GNP?IvVBKvY%uQK`eyzA1=nT|qTTS0D{>t1NTTeom<{={Ou(0;lg
zpN1X&`rMhToq03gb4i)`sL-&#;NL%YW})kD(?ZX@viMQqz{!IDWTy9_<eqkAT{$s-
z=IhQGbEfBtaw9dT-RYbgzWH%sN5_5X?M&wbUi_?gs`ui1xexNGuhkn{W`?hPJhyd$
zzoRa==64o$zVjpBxdx>`p=uDJAZkO+bFjJ@)R=U;Jw~4Z7NaglTcHjtVpe0~j8*|4
zc9Z5o787Qx;#I?A*}cU=GnQK?%~kn(!iNDM10d!<_~SJ`Ex=DS{myAdYaOma0m1|a
z5H_)7EYYzHvuT$}JHj58%Z5JA;w^5p!C9?PO>kiQDSB~T&u_B-$@<EEsJbOs;w{%~
zx!w%2_){n-4G=ywuBn6zCC7s-5j1lmsS{DtQ<0Fqx(kxEQ43QX46+sI2zrPB&=eZM
zFHxHpU?Sd#p{OY}5>?-i>O_Es*5bq!1|T!rUL(S!juQqEOMMMtwMfctV<MKoEGSiB
z6!l7hhk_m90Bb6t2|o<jXV8os+`-RNbJvGhO(u1W_k%<;GJb|BgC5BB(?i*zYe%jh
z`|8+F&2JQ%-?-oW)|HmU155JJOgB}Z%bv@(%(UFw7W}T^_Kx`-i>dqa0I1yl>D}4g
zxl}%NZ)?jf{oB~h*kbp6_wmf(l|VzLZ<$UHCEv6s>&bQJ`<A5OgAGzq;Jjj{>yaA?
zo{Q~Mean(>S@OU<EobGNx+Fcfk@rlyv+i8m=Q3DTSlHuRZfJtPzZyJ(SZqXIf94q8
z1*Z$aZ++0-wR`?5FqcsTrQsj2A?W`!ldkGZcnhraV$&SFy>hRu`vJ!3ZwqPcn;>i4
z|MtUEKNf;lCkzDHRoZm89VX&2b;DFbs-Y`w@WxtTZS|eU6#GFzuayX)Xd<o$dE&yl
zF&;JHMH!Jvoqnb?WkgpsybsI_S_=9)N-txJ9ijY1Nf}D%<<fk5sqqj@8MNZ7&GZz#
zXzTVVxcZCT58ZXSmVC>Sy9sW4$F48WUOD^4xlGT+{sQ0ltY#AO1~LQoO$EL9Wr&0K
zz(o9|T=qucTR#pTMIt#IrVUEC(TGWELW#Ix>gSWV)F)gdZrVk_G;`u96+jtIM75j9
zj!`<T^kyufjYstk+y!>@{|)1Fn2H?3Fux)1FG&6sZC_zrpEXW37TImgA*Se~pU=K*
zU(s)iwT@V4i}fhbaCy(AJ;i`6ZYhg@Hc)YmL#(&#=Cy5%KX<r@fXoEeC|T=b5F`I7
TH8O!efc3w)<ZGVt*vb9_8(OMr

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_759138.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_759138.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..14f80f2332e291612629d79b7a9c05f6c5159d77
GIT binary patch
literal 2872
zcmbtWT}&KR6u$Gj%kIuDzx|=rf;P}C3Q}vUvGI?;w!qe=)ut4kOm=2rVcFfz48NI8
zhoq)#d|>TMw`x-26BH8Ar`iXDKI)4b8bhv_khCu(#$eGGAB^YD?yw8eP~#1A?>Xn5
zpKtFy=Ujde1Q&ww>o<3MzjPq<kTCY(a>T|LK-@wylBo#l%C1xwW%2X?)5TIqq53R8
zwrO^iX@%|cY?TpCW_Ff`Sed=f&gKld95SakWnOWD+;N@lD%wQgypFnDG*Vofy6#cR
zU$jOn1K9CS$GN6<vC}4+gN4|NK!<^E<2Q=@DjnwR=%Z~azsl5XZa?ALMU&ptbQ><i
zIR>X!V8P~n+LTNg&e>edF%Tv^hTAB5D!ZaBc7owC_<rz|@EU^QuqdD5fzv`C(J~6r
z`@y@x5YL7{q(q*R(nM-SFD^jK+Zgk!fsA6JXLz^y^=<Vy2In=$*!U79*@y)=I17h`
zt^fzSiKDathch4FrVPp`wQ!UeR^$TD7P7q091?QZFeo&N{A@ra2fjw`)K6h{K+^jC
z9H#XMcE#0Lk17p_VHxw1Dn)w~%tm68j5$q@sfxc0Q=OPOH>hLpfTXM85mAF#Rz|k*
zqu3oA)HgQ^m{H7MIMdYviODyMr(51`RtYwhqz2~VVObo=E>X<KLLm*<><T;qN_cCH
zVkRt)V0R9NEa?(<fJB72S{Zn&`uF(jy@uhK+ONf>pwiGQ1^XqvHx_+S>QSP4gQf->
zbY&pk09-@Ps}4t?#bcUMA0HJ#F2ax1V^J{}lNIsgE3Y-a{3`5VzF$$JN<=*bVM*3#
zf5T*=KPr*no9s+>rmL4c2hElhkGFtZ6-rZ=lH%v;ozdH)(<RewONWkUgyUxG@{=}J
zg|bvADH4qwvFa|lS)IC=s!hI`{xIXNn+`2pyx+KRX(qPl&C~}n?ts~}Qd)ki_LJIl
zbvk&vcACF?b>Z;z@Qm+X&0_g?R~Pqw-H<tQ=0WLMvwhW9aZ^f{r+SjtrVeC$FH8?D
z$oJn~=$W~;cp%fzk@0nyZ7VE)<MjCHi3_Qd$q&-))1j}<-(#(K{G$H-`NiRHeVO`m
zKe6v_zzHCg+=E&UQ?RhDkY;E#pSzHPyEPvuIZ6kE?C9IEh0M{jIeCIED4d-Nm@?3R
z@W#kYf`yOMNyD_pPAwiVvUaiWqDdK?tr?;dye`;&4c=-{w80p3pU;-&SDCe2>l605
z&3$GU`<?gm_Hg0`YjAV?Z0^aRpmAP6en$Ya!9iK_)0mU>(YS(nSs4lkl{FJ^s^qw>
z&f=%@HSKp|4mwA$7jsZcauhp4&`<Qn6PO!Q)R>0(Y)OG<IXq-l5azQz#qY@H4=H-m
zZZHGoo%fE}9_T(AyxDfStIq<B9mA>=k1MMB5^&GKr_IA;q7|WZ@=Eebde79Jxxx9w
zOk(l<2SSJ0y5jOp)+Oswp>$}jWxjK!bFt=u>x|j7>Mb$bmdW(UQ##q6Y)|u3jwR2L
zxtjU9nYxA0y`H6`tv|Zk%;ra|YvTBL$FkGA>~zCCDI|rIwB+2km3B|MlCD(a#{y{O
zNwD!Q7w?6?KP%iEzrGK7eCAoT3NQ!Z+Z-gxt-|>fh+8O(67b(hH+l1@!o-K`qwOS1
zFb2~{Y_<*ie+C1|^eNbrng8vFC4LM9iNXc^^ja}+>M@wGTURt)3`&|JHo`^~$kyK4
zws8!ShFlirf{|EM@w3>WD%xN~hYZoeV+!f}ve>IgvRV&n8aWEm;IsE#Zbis7=OInB
zGERLRbef5BH%um4^%k3L>mIb{;CR4nooIdJDoNF(YnEKqaM90H-MM`G@@H4fwu#OR
zTlutVPUI;w1J+IXJ!%caQIEoeeOWB^5qLre;eEkQn^MVhj+wr&j*Eh^sHQ6;aW$Lw
zOgO4rhhQPc?(6}GJ+X*9gRB_YU+X+I5R(TZ${T7E_#)4^7J+G<p(yGh^8Ad1U(mr-
z%5kG|ymFo1Po1aMOOdyDvOC$mUS_f7Ireb{VK*2=dvb~=Dkxv7X&u2bRklHvjZ=sc
W9y=?kvfrC2<a>U}dwAS!q4@`2j)SKF

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_780911.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_780911.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3569ff1ce558071ae392f335db4280444c730b71
GIT binary patch
literal 3002
zcmbsrOKclOboS%5V|#7K`2ZmmEmRREYE4RM`3q>8w4_Nz3zVdlRx9s1abkPT>?Uo(
zSaPHyYH_g3rKTW}9uR38(N+RcZV@LWF11pjXed&o_7YBkz=acUcD=D%QWeC=JMaJA
zeBOKGA7$B(V0@up8oTX9=r$wV(Nsg$e+A?m(vZfb(TD@N5zeOhj4&c{Nax0FKdz|*
zHC`9TgLm^7r3v@pi}&GsHs>dOnsi#cTnjMbg?K*j?bEzE8jt=nZc@^Gr^ONf#!i|}
zqmclQ^uUIX;4~NWuQJmiDjhvIvR@gbQm=Ag|7*R}`}(27`v!nfLwXa9d-i~h0N?r@
zj-8eTvopqd7pp^!yIhm!{SVOOH#7spPkb{Fr@=z3`*bmlBfiVEm@~l42T6c5{VThs
zyX<5VB+>+U%7=(dyfzjlAvits0k5GX{|I;|VMa5KL(jmz@)3ea@E$#Zt$?kE$ah;1
z-j(E=3Fk-~{Cixf<FOuzh^{0bZ8#ChJ%>6Z%_OoQxO>aDG-&(kS}sPSq=iH_%V+Sx
zZWsoKrcq2B!t9t=*-gecDrQu3A|_GZN>hIh8>3jwC@GCfDps?jIu+A~s!@+=8Ca*>
zTd`Kk4N~Foq(ws+)xxP$iV3r(pSp*hrU7Hp+7LDn)0iy>vmC%I{V>}*_2g2Tl5qe;
zH<C#cNCyJVR>^1^YP89Q22PFAKy4X03!Bu(V%nIfsg`QCg6plDjKAKFpEU4<nNt&b
zd`wMDsMeT~-Jy=^Su1YhMBLIdxj0bqns*CM!^|0`zB4zi0AGPkTSit%7@Dr^eeUV!
zdwM`Zr3oEp^)%iFaoM)aKVT}LKRS>cE)5n3E8CWWorV3kf}sX#MUIw_6_wBM=hL4|
z&o|HaFFm%qD(^1zE#FVDBDa*2MTKe9kd;XL$M03PmrtGz&vnhWUV3l-p$qY9q^EFj
zB?>C%-<%UG$Icq_p=$e{YIM)__C@h~b<z9XV?Vr7eSWwa9WD$khoj|p&c9Z%D*b1b
zx%aDWyQ<+`SKqnb`~9}-{nwPm_p8qysfLdf4%`XIrM<<y<rn9MZwBIp-dm#d;epu$
zXWlJabFnYGFLeJT?p%j`BPwCtn#9>eV=rNy)$TZ7K?Xjk<3L4nN#0`4>@mJ+=UCv~
z4A1ioRkB%4aRfTRfAA-0LSBT=W4Z4N+N{Q4ouXT*576X@$JI>odC8L9y%EXoOgs??
zKOT0ub*PDMPrZ-avmqBAV86M%ZV#tUMB-VHF4x`)4iVufig|~qn3&Ym7*9Q#HJ#I`
zr0G+sguc2J)`?kLvYShcuUB@=M?KIy5@XZ@HKb*!Hwi7p>e)j*Gdea*DmkSDp0(7J
zT{%>8dP>Y&ZxyWcS-YVElz81c6-S}_nD8gSt#izlLcJ%kn#<`JKLgZu_{?u$Dxh0(
zv~;|9ywWw-b>orP*KOZ!xwd6->ZUwY=)2_)m%5AH<*CZljrOhu{YvIyX0h+4f1t2$
zB@`+2FSF@RFj^WY4pgK$?^5u|g{~{z7rU<}ua7Q0)psM%&uYPcX7}u&WnXC77l64W
z7v-|L<a_vTJW%o%{pFsIWYDUkU=v!7JOsZ#+X5bG?O_xQ7v8{+!^#uzZ46cfb_tya
z<Qz(&Jp9Qy!Ja&>u>jx_c{kPa0ujcU%{{~Y3qg>^zXUQ(_}_j+=7%6i7tc_PUyT5T
zpM{AAEZww}glg(a4`j%bz*~Lw9>FdUuq&gUMB2#eF_C()Zce5x$P+U)qq8?aQ^s^v
z!#$v8vZG-A-MRHvJ3_5BPnn9Hclc${+0T?uz*Io?Wv&HLd*>|N`kB5v{^oL5rEAH*
z4K8}i*3XAO8UFNmq5sTaRqXh;YCaTfDGb>+6_arc;@}-H(Xg|YooRSWC*gIWJ{QBR
zvZyegvS?Gn$eNaZDu<oy7gAY^N^j{|({S?F-T@6b2ce7_Y3(AiV>!F_y_7Mu$+Z3o
z?gO9fT{lZGtqB~*-A2Kmk^BqlT;aSQcFcCH@sD!xwGexb4iyirg&7rbsb)q+Q7BS6
zQ9QBM!l>37^?Mso>jL6~j)xaoxo~;k8UiraVuSg%E1efR*BNL11;oj}`#QLm-+DO|
Neqt%KeKue(_-`X^mt_C|

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_783719.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_783719.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8c0fd50f051137934be712e5279efe4b4cffda4e
GIT binary patch
literal 2925
zcmbtWO>7fK6rTOF9k17RexMM6NJQ$$r6r_92~`nLFbOS5Kq5^=5^3dn*ZK3GW;X#x
zYsrzQh}DBlFBn>h^i+N#6(poaJw==<^@0^tMblJ@1ee@W!U6TvH*0U~M2SMxk$2{O
z@4b2RX6C&&{#}xs2%7Nq!;z<UgkDl$wW<=a{u>atk%AN^f(D8sGr*XbjdBA#gH&eB
zv|~*zjtZ;tW3J6SiWF`KKEDHB*q$GDD7G8?qtXHccEx@J4LCOZbO5Siky^E(;Y>3A
zs#U7rOKev@A2=`f5L-aLaQ?FZv7ha}bnYTBN<<)3xg!DQaPY0aW$0Px&==bnYf<G<
zVIGy_Dd#Sl?1rXjI1R@XtWz<AFWa;zg)tnDN^4F5GvzWwqw1aJRc)Fl87{*%4wh1G
zLo)0p<uTlFdgvQgL1A`3ST{TrQ%(_2!M;*n0~xL@dK~qD`eR6&XBey{NmUz6QCeZ2
zx1>dj<&_M<lB8-XPQ+%NLwPi+4euOh?JZSXq3tMZS(H&@)NU86hIczI*rm4)jX_D|
z=X)_d`c-<neunVTpf>Ke5mt{7X9CBEaWE>6D#RAV!Pu}$_((jc5JA)9SS3uKzm70H
zgu67M6L&PI<I(G~2EC$Q--44wj8Etr!U~YY)E!LY0@IMh^gM`=7**tGae&q1;jjj<
zI0B|#Qf!V2rfCg8PUu(zrQ*m>1|ynQ2cm{;+CN{mT#MszEfEZ<EhE9ucu*gS$36-U
zt1-Pr!=V;kjV4+EwUqXy!vScCxTYRWBxT^suunZ6lS6Sul{-!x?`Zu5B*ZqZ;+Pu2
z4X`fViS`z{G<s8yBu};{)01ypbR9^aUv{}G(27)(`zj;<fbS*mB=1+>?^-<6R*>4#
zol83jR;1coI3rUHix8{7Ys~fKnlq>K{j-6Gjk8^M<bwENI<O+Sb9?VH`L?|M)}h%`
zh3eLV)cUw{zU^7{e8-bZ3$a35UqR}lw!FFayN&t2eDkf-vx9}&V+HBh<M#QcXUu%_
zlhX@>h2xhC(&cpLD^bdJWIA%~v-}J3{d8cNx81xjePO0Q*LS=BR{w0%Pre_0fAIcw
z*gFbUmJ?b!&7w000k>Pxfuv-@tWJ%XZEV}(F~?c~onk8zWxKRu3@8Hs!5*h@DIPvS
zw;m3(T}pwUyp^oGXflRiX@=R9O_!{_88)*xu?A<bV;+lJ9u?jyt2@Yr4LP^V{O#rC
z`Ecq64}O*&3kDh7738<|5<WDc1pO=#6g`<xiA_-_M?>mr19*vPT{0_)-$4YZ4xteu
zK*lIBVh=;j&|BMyFs0%+<YzH)z?w2TY32#B6^n-7Uakc+w`n~g9Mp}9!oUwhdC}lq
zx3U@^0-D&b;b0=6V%!SoFnrpt(52C`RFfUd4CZ~azUTY>Pxt(C@X5i2$rn;@x^vm-
z$sWlZ$xY@bpYQd}sXs>_L>D?=I4`Ept+>7Et|i*Na=5c%M$C2QyA~Zy%bU=ez`1Pc
zz#AtL#F@6~?j?tN$st0Yl`>K;xaioonHICoj5F8ztpr+S66V0q1HU(WM8USU54k+)
zFK{EcAA)bA(bzXL=PnSp(I`s6pO+!}*fEuH4|m5}5tiZ%Zj8>^(yTuZ22$9QAXB*i
zZHK3J3<Pl^^!nLVFCcszIwI<-rpuwArpm2;7W;s=dS;8@V-V1LBSI(=kEwp1*s-cj
zM05xiZFEYdm0poY)S!Y}Kux1ZK}&k^>g&uEO4WE$lg;46pMp*oRUU#ajm#TebD_Nl
zrs3*mI$t@fbH2Q9(b)*MeX!x))jL<eA53@6^c48|cU5yBS8cl2yeYqkn_(S%1Ulj=
z`f@Y^FXjY1D8yk=n5Gor#zu8g6^h3+UA>;bW(t`5H=QP8aqseQJfb{6rupJV9Ver4
zWg?=U!e_w@eXzA_(5-O{!@NYUKaunoI<UgnZ`M!Oud(&a2WxKn=yYeg*E|$?EmTcW
z4RU+4Lz$tqT8ipQ==B~z>l|WTriIrh-eWxLXBfmtuO0PF?cV_gc@8hSo2Et6v3~)g
CN_W2i

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_81159.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_81159.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e6c38dbbe7620d59f8f2ed411b0e9d54f656ec3d
GIT binary patch
literal 3121
zcmbtWUuYXg8lTyJT4}ZVW5vGO#Kpb@J8GI3AGvS`Y5ow~aa!AftGPB#VY}6?Y}t}l
z?5>^ItY8hf#-a}r2S?TRp)M4fHi7HG!M*nVUZQh2%+v)#`{FmX&cU@${bpAy%fTT%
zZqR=7ee?a9Z@!uNjs7Xi5d^Ke^u<C-MCe;81TEZR_WuRU`$$6?&Z9ZM$8*?|nF2e<
zVWi_lFHYd<_Zp*fi_yblRMOaIjC0Qz=Z_xGikfhjd(fI-E(G(55L?W0TIen}7j9=P
z-bHf}2I-Nut+a~M;XUd(Lxk6_&y6e7L>N;h$FGbL@eeoNP-d@BjT7<ejVX`IbgqsE
zFBZQ2N0`>d2I{v(Cg2Ww4L@k<%aP|;GHpxAi8$gK%+uk)9mEVc4Ljn4)|_iFSdKc9
z6aGbh;X{716Lo|oh*XX_vJ>*SxD$i=p+7Mi$}+tW-HB6~j`;E#tgD=GqKB=@Nk=|x
zSMG9<lXMuG7tPY?a@c?`r#e<B1nWBJos^S!$OgHVk2x5;xxgEu@&RA&?uY~@`RV3#
zJI9>FQKuB*)7^xI(JD%FGbSzR9^JJxCR{<ameK-Y>^zB-Ok>_u3rbESf@-S8d7W^1
zL)8dx*@meTJe%$zc$%;`mTeL%sJ5BAqgX&S{mxVJDv^w3yRGaHR!y3YN%z~NN6n;l
zA$%#PDFweP62Zu3EfD=4WSS+Fy}oGDt4lc3xNQ+GW8^IoDk!R^nHIr!NSIFSNmdWo
z4IJ5injN`qm`hek&FCWwYGz5b7mVT=bzU#pBbJ#NvGqb}1f-GHGHs}bRWdC7Y-v@2
zaRrub8$~5!Xu9&d(b3=j9u!1a(#@itH-8Ni({))*ATD~+hvay5x-wlK+=?D|$9JN!
z4ry2Js=e8e`#)tq3x5*6KY0Jmt%36m`Mf)^{Y=fSoT_Cj3N;BBDf#EY+H7sOa;g5u
z&9N^AH?Mu5G^Cf^vE2iWJGLz)YbQU%)C@GSc<p5U#YWd~BQ|{h<d-itUb@tXU2?DO
zh>>cj5~_vj+GFvAdu2C~s%iCGjh<7D#Hst|zC7JH{YoS8ihF&B6Yfo}Pj1|-<4x`}
z;S=HC-0(iE8D&}*m-2{$qz5TkICl5YJ^Vaash|qZGPdVT$>Ndl@Q?|PcA4q89!FfX
z3a-F4{~zM98e8Vz<2UdIcxv2Tu`JlZlYtz;gAB%D9cEE#r`cvSJ^;IC=!LePeUAUp
z`nEr<l*2jv!_b2kh-2iiucNd$19xLtQ_~FLHG8$B6G78gav6Ou0cmDhsO@D;3zmX!
ze*wr}nCET|<G@=<3lJbzNAWwi9V}>r1d--pY+#>dAVGHK;Qm9Bf`6ePX)U*sW(hYv
zK6}N733_xaN(Nll9E6^T7xHT19ZkKs)_dDjOC{Yrdm(RR)Vy^O7+-aUdYuLGUl;9&
zv8q&&Y7_Ob&A!I*m$$?-M+|+>v%P|O0$e<dG%3!exuft35R(T;%q$Qda6v1QP!@pF
z9z9R^HQh8U4*-bZV`DmW5Q0J&g-yZ&N*%19aPxqoRtP41`)v=f{B?#}t257oW*9!}
zV<11mg5<91t;((X(B{yi-t^zQ|Iz=q{;yUZ%QNo8P9$DET{&G_sjoch8G5MyweWf2
ztBJ>v*W9bS@uWMsP0166jSBAAlL+FajdSZ$+hS~6lz>*{id<8-#1{_pQZ-VE)JETv
z!K%&1ySL$&?1kTdx+Pv{zJQ`}_f@Zg8OXEU=<TKZxBnrK_fZa&;Q+k_N2QEAZ!SE4
zOmIZXtivu+pQl>z7l$6H3!u~3|2qyx<2VS8BtMg8%u^tFgh;k-*-A#WbY(Qn><xfo
z?=p~1#c#laZVuryd84SOITA8;YdLRQu>H9;oxWO{vY@M)c@E4hS_-<s{{9~GW@tSn
zE0*G&Df2Seyhe@R0^*|GSi-&5jG~_7>#)5W6W>LWwW0dZR%8%%w142^n;+c#=$3nJ
zW4gih{Zca#MN{sKw^Qk;NpFey5)cyib2*!b*MAvaLm~#8N#TXCi#eNwGe*&}^*bfg
zKj&<&XnRHQGAEK>0A=3DYo8<kKDBOb!O)iT`bBdRVo?OL-UZTRF~;Ab=+{X81|8qU
zp?iJneNCnxpK8YFyE#>vYR0LQ2&5#Hx==h>%~$fx6qSy(q#wFL+Gi0H^&?!yzryj_
i)h2>&Gqq2<{mU3(`3JENr@kM<D1Krqc5+?v^86XN+oEXz

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_853096.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_853096.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d1879aa00ede1b1a11c9be4f7253d2e512042f75
GIT binary patch
literal 2793
zcmbsrTTB#J^xk>xvb(d(YoSshpq6xN<>A}Zm>LnV7EFCskgmhd01NwaW<Vjc$&%P~
zNt>{wAFOQ?{X{V-ZJKER{50(k6O19ZHX)H8{#5$aubw;mU?ep5ag#mgp65OH+;h(C
zucGKeutF2}h9n0<&nZz@On$RI0GnAPBN<0fPY&ZAY|%`V?cp#|@UZ2lV4A}+a}&+y
zSv`Wx-b6i)q8AP*CxaAcQKMuW2lzFr-yL%1%_xGn5DUNc&mf{%q+`mYYq$_$j<leR
z=kxNU^9`CzQM1IR$=RIcw+6&MpFb<<dV{XRrt8*e?ADU8;VSrOLw%1CN_t+Cx^2=2
zAQcUd%uevgeqVc5iheiFgWRIe85s>Q+dw)2zogd?|BDyu$L7Uncnx6$GGO=&2gMVR
z<7BCU45z`+80lF?iDAWS?Y%a>Z-bvKGcee2HXFXU_u2SfqsUK|+cLgIl^JD5sm$Hy
z=V^_=N><qPJvp8o8s$cXQF>n}=wtNN&m8*d7Y>c1fTLTb54}cfXsr~$V8JxN5H2cd
zBZQCZLy8)}ssN&ZgD`r8xDsl7P?e&=uuQm+93CUQD#ZpBB1k#RMdFf7cukM1N}!V9
zF2bG})rmJM>1y~!Py;9{H#X7Z#2p{ii$WVQPK0x(dQJwrh|m`7JbAp0@QJV-jOI{`
z2!r4c$Q+Il942^}2=RddjdCp<vo1h{XfUCx8gbI2tQ{W>j!6-%60TRj#rpF?^Yyqo
zq9vq|(mW)EMkIYG9@`@gDlxrTQ$x+V5=}G%)ttYa4k^$QaZPDTj0b@qgv;vjSTGcq
zmEhq6`&y111PKvF6g8$q)SYlHO|5nq9wCKRJ>KcAsjh6pl4pDB<g?ePRna$nY3fqu
zV)pEkSf6TtwuxR9%QLN+fu~|^8b2$m%3RAfJ}qlVA7A!YWy@zSe%F6Hd@DSM=k_ku
zHQl?muxswRS$D|vA4<1xr7@@f_{oOGN@Y#<;>?*jVWH}-&#X9{Zd(Db{yTN%wr11c
zyztJ$CUbA6>F<1eaPfS<dAi^9_b)0Vi!sAg4AXDG8Pzq}3wL_W+7`3AW#PcX56pe-
zW_A1Hs>QQ?=BYljx^MC7z+zZ8uj*#Cp6*<&teWkZ>BzRvRW6)+Qh6k8WutSdGxKS7
zbZ-AsPs>X`D&O&vMc%q~NFWMPP*}8ctSNdP(hAcYCy~q~v8`9~6Ru!DF?2W{VDutu
zc#G*Mv-i0|FC`h9Kl+H97IZ&Mr+?v(mH8y6mlWI>9Gz?iW3UD@>@ILOuq+g2`rpVM
zMLGKh`>o|0_K=zR{5;0UV9%j|vwQ7B2xTn=0H(mGEWym+WqmvWb3j(c!XX8w2F;)~
zW2{|3AUw>3(2zAS<QQ=bz@*Sy4-$StQRAA`4MfPzhXAkosdW`SK*)6$VWDpcNBdoa
zL7eMYbqCdOTvw$;LQ&OyK)nq=EdwBhmPKExeOWA}{Zc;NJJp+QywkY2E%1~7LG2H<
zkH(&e-5_%Lrgu;6&WvTp7ONWXE8j=&Mjy35ah*<`SaJJOZO=GYdjI6d%T8~G1u!j6
zi5Y3h`Bt{^_MTgN=I~O@d&^Guv}?+hY5h{nXtNVD6L%WEPErHmj}o32UU-nlm-<NE
z1wp-5sWd}YrG5jOSrkT4srU+1XA;}%3u=ied^3}*!46ZKO{?(V!hl*o3No4f-+nmi
z$3XDje0P9RY0fP`+`6La!H}dW!PWq?R!;?u0PKRjU_oDl@S#XNrUW?RP!(-7qHFNR
z;R%HfXE`{eNV3`rY8p)i9l^N=t+Y<aPtP$eXcdl1<2gW;uK-A)6>n*(19DrneG;BA
z-M;E7%QR*ims}0-a<%ohFW<WSZEvb0-DPq$|5VM1JQb;K>!kuNbvK+tgj^WJm%~jF
z_}q=cH-I<`JC$|^VTZ%IRm9f4tzd~ecjw?>JR;vkmfPF~okyc_c{HLNQ%`^`{RV5t
z0K8x^#?O)GHzfX!wy$8v7d4YLFPU=Oy3QiT^MdYPy(?nh`uhlrubefw;$<5~zMV_n
JU6XFh|6k@`bx;5R

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_869907.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_869907.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0f0d9ae735965ea4006f0ceec431740b66bd6c10
GIT binary patch
literal 3087
zcmbsqOKcm*b@s#MXSpOr+Ki~kfgHt(8C90uG_h5<f?X=I<BxJM(!zAw&6+!uNb!f=
z6>SO2VqF+8SqGqmpb*mriIQII%0OM9K(D#yVn%MOP94BNa;ShFm?(!Lr@q<c%8cwF
zEjl3Iyf^PNZ{KI$$C4C4u>M*7{oH;ZLZ4B>UEVIT{UL+UDpHZk6j0jPnKWb5Y>`Xz
z48ly_w&SWgyUJodAN=MSrBv=)&iN;wX9d-BonP-7N_)Ys4{Z3dyeeGh(|#OKz4HeV
z(#onYEvo)>kVV*!MI2mb9i_AcCn!JIHPN$CsVob;XL=61s2aE<u5%8Nj^Ids_;HyX
zucG!1BachqD3)A5^k>c>klRDgmLOv55LvqNqt4z7UCZwNODEzq1HtPk9S1vcmzREO
zkx5EhRDFgB7hX-jBA+M1lzjS?lT#${<8!a2&dT&O<L|k_133M<?Wmn!qw5QJ(~Vk>
zEacwxwdOa4TEO(yL^EKDOJJoIG^j0mnSL{9`rN2Zp`Tp@zGO;fa2~Ac%v*lI#U;RN
zAsZ6_3!BIcnJl%n1Xj$j$+>tfVlqJUE)8-X7q9j8_zZS-FEg^^bF@bi>U{Sy`^>1D
zBL=;7iARel$<Amr5J?YVjRFZ&wDPQ`6y=;sJepFP#e^@E6(Dq@tl?ygFy{&P+JZqs
zMa9r^S7jZbim&dX7l~M2Fm{+d#G*#Cq45;ZcoMDxcL^m~D__y+o+%e};x8=}Wkb>D
zb;9Hb2Ry<7g9y2jTro7_rPe9JRh5Ds13N>HudiPpzf#ub^@@_g<8w-8UNPp%r7>j|
zmyB^;%ZwYiSQ!Uuy!$N%e6e0B>-bP*QHFCFzRf68msBhtdwF8w@KN9pVIFHGT+sHx
zwe<PW-veNwulkWFHOCrbEoLJyV5K&tm^E#Khmm+Iz7n=xeIP}bUu^l;e)w1EP@UNn
zgZ0ImKiZ7Oma8kH^%O<2D=*Yj5BJ7fvDPoziLv(HvAf*eQv2{!d+$_zdNZDArPfB<
zgJbPDWz4q^pKQlZ)=zyN-Lv}q%JZ#}x5w+L2f<MDbmR2$Pg|M41fTsPhC<`p;33NN
zR=fxYc3)hEj<|ttFgHA_sHc8<WvMc(25K-_)^G@bd78vsOJ(k`ZeP^c9(zxy+y>J?
z|C2pV<$mR<d+JObWjU3<?yK>}POqDM0(>!9lQY>o{kmOC^|*cVEqq~z&wYpflleRP
zG)@iAde<`sncM}G^v)1Iv!E)sS>jQR#R?{ZimSN{-a?Ro%+9j}UemDBlHNWB;Md%D
zriE+Rk4l4an>)+Eh0IKnC4y7IaJ8DNCV9dav7y*~=X4;g0G-}9WLcI*CkOEzFDS*!
zsxrBhxS}bQ3f2xCFO)OTW|M$8tRz)?3c$ZD^ltq9r{8&c?I*XgAINv}8;O(c{**@N
zjQy@`(GN=s!~@SqX3l<7)DrP#;ZZS;yi7bxSS#yxClSGUN|M5(7lH^*XA%zjo$#~p
z)Y#7Jw3^<06I%X+<FvQys`er<o`b*sHh`}!1RdAB)VS0dSsS^RNd9T>pZEQ7-$&K^
z(u_6zAP{bjHb$4Lt?Iq_$Q}HL;_c!`)As{st<=N5J=U2|#gsMmfDhDvaP8ctFSO|s
z0XC(Ew5)9S`oD>b%|IiteB`DCQjbv3fnW5iSimE6;wTul&e)M5K3Og*@RZ40C&0}u
z3xGC6!F~W4`0p&58@o+^1IQ}Mp&AUSH|SttdfN-e2kU0P#+h86>g-zX7&Vc~9tWPv
z{oi(YYR5!SZ62t$tq4#WEm|TPSU2R1qGS08For1OrCp5gCs{jP#FHtMOBkxtt6_bi
zV89sAb4yq*LW{_ASW&ejpz4$<q}<8)9{Yyw16|c+yS}s&Ab6GvzX8BP4?_{_R40hy
zgV!M8_36(8eaj=Qk&VE9$nn0R_b<M4@wb<(Q}y$0e&D|q^PynOnz8ek?AJ!&9&H2w
z2|K<VD!|lSfEh!4E~e2TLAZR*ApT6bq#O8ZMRRJN%asf#2v8CwrHEzuQT5xOt$mN)
zFh;>)YKAdj9O5kTDTM;WO~-^&F6)FVDp&2VC!!NXdA3|oZzHD@2dSp-c(JT56!4@r
z10?NB{a*k&9K$f5q2ND|^eGzb2#EFF7`QgjVH3=7CxoPM^IYRxCrqh`OZ8DIiuz)!
z!Ij{bF`%|N#0DLmV|`3`In_b1t;M$K);WmyV14NmF0m<v=}e4R(|_+t#irC>f4!$o
z@AkIoW+2i$*f@Ce1(>K}qW)5IvN72jZt3^M;d}hV2N!O|Zt1rZzx(;$4jgSCIJ$9Q
gVuPQ!Ck}5%5hH!+8(?BzOfe`tyb*ftnrKJkKeIusivR!s

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_879575.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_879575.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fda5ec4ffd0cc227c56c06ff5bbd370e63b7b984
GIT binary patch
literal 2996
zcmbsrU2IcT_}rh~cD=pr)@>+r1QyAlpiBrqg2q3_hK`L0h%!iSZhCLGZf$RK?%iPX
zH0ctIG(NQYLO~PjlOT&gq7mN~o=kk988OQdlO^&ppQghXpZw0fy=%b{G@kUH^ZkG4
zJLmhp(;pQjh+urAe>Hm7kI=6S@kUb(SosZri%3U0mqNqt$_;Z4&ZmW8kwXSI=GgI6
z-BsreaV+#OjbXa*7`pfvx^HcIBA`p>#cMSO!+!7=0NVlGZ=kX0Km8^oJ#bze4z5Ph
zbRG@MJTl}}8=)yK7F=SgLsUBc=I|kPkV?Jk;X|+YQvVxAjvgEULJjDRH^%G(9Ra?T
z`y4wh8)kQm@g7uPb?#b?p9?-gl3$gSNst7l!B2yRShwjxI!6N6YCfldm<th^H2o{R
zrib(t5+c$#SjvToLi`RCAz?T@^Z~D<1iv1vlL*5Z#l@!~u3R%gB=m?J&vwA}LzIU#
zh~RN@ErfHq4faKk>sqXPB0i6ki#D8y<efu(B`u_RR`6oWwKhlx>QWv=qNJ5Hua(bW
zgWWI;4o#t$IE2|TFR`19aa2re)_6>!yq%)KEH+25mR6HGl{BnnMhq&ZOiiag%Qmq=
zxf8KA$_-NC=!8wfY0bvTbE*ZiZk&4rpQ5rkVXrb9kSWZzgINw>mVTJUPJP*=uBP1u
zyqk%H1*p3M&UVRgXVoz)aw^w0khQTz1I(KPiMnQMRvSocT4Vh6PS05rk6T$SZuE?5
z@o~)_H8am^BSyyVv2eV{HqzN1z<O%dZ8!%jYg)#R?34<06~eX6j2bs}Lw#}I{yqEl
z0EbHB2F@5Myb1iWfUE~F<<Wx<q(q8?g~4*ye5f;j=w2w?fGsM~(z^xqGyM6~rKu||
zSNi8S?yf4k^L-1CV=OAIr9?qx5;b5^Zuz9EbfUDS@M`&FrT43@O8+IbDnFO+U5tXr
z<+m$h`Q4ArE8*(8z18U6TkGb;+uEG}`;9-mQr&;58a<UCScpVRCojKVw#)q=tCjbw
z?YpXxT{lkN>b>1{tN*4t_kMNHv1;U4{_uTSDef!mE4@@XaaZ1!@4Y8VA0D1LeBr&4
zUD^C)_ZQtiiLn)k8&L@x_5{wv8@mYWsZOu?8glPRy#{KLOYk-`=8Um5d&Vs9<#vv5
zsE@U(i6c<^|G}Q13po)!pY6RUXszmkeTrU<K0%TrK2I{i=OkP4Vk45%lXxN!ek|fq
z>#Ht$-Sjbh-zr~tg8th4x;~sb5s7bBx>kE7I7EcwDCQrcVthi^Vm$Tf_EgrOl5R{U
z<Hph^*e7NU$!RMwzFyO@0QEuJh>ubq)R3N`{sc4=d*@#2n>Mg%QOPYOu&gI1oywt-
z+f8ErdXr#9&l(LCpv3FesW<|C$AahIt8=^&VCp}MwQSbFco$%s;j_MlDUa?c(c<aC
z>2i0a`_B5<H|^hTxVd3&@~$$J@4FX_6t@?)mnO@Tch+^!8rRcT({p`yg9G`4i{a*c
z{{oxthoZ%S!a!N7_~%1gXS=U&zq<WK;?~Igw!S-ZKdXh{h21kp76RdgfDCg{DJUgv
zKJfIzuv`olf~B1wDIiq`K_|S>{1p8DY?pn~^3y03$-jlWVCQl8RtGBrr-Uv8a1kX@
z4*uSpVUHcxSO9Q|yq9V@fe2$v=aJ$4c_2vVUk08o{BJuVvqKQ1i*G2#FEs;(cf&+w
z+pugku33h<6Eb8A(3W0%gs}@4?8>Mwo-#8=Or(BnSQ9B5^2AC`8?5{5>ZqaV_yrKN
z*io?l?%sNv<Du4?CoR><JIwZThzXy8DUY1XTn?dioilLj7y9l8TT0#K?)hLBT=a%b
zpP#yP>eJKt{tJUuvE$#01yHCpKjhq0Ou<{h4}K0N8gcisBL%PM1iUUZ;6a#G78S;l
zHf@TV8Ot`#WwD$6LNa4h>4cH7OgDd>2&n8HggRoT^sC76<whNNIc@3_DdQE)qGT_+
zRfK6-;5hDA6#5w{zo5=V&i`S@Ovf_+47Y7L%$}nog(J%mhBbRw3&Wx)+*~|UIJ4Z!
zu(lfZM>}9E0^&oig#&F|q;zl@!BS~;mMiVoJFj-GFv`jS#3_FSI=I%~dpQ(&c0Rm$
IMs_y*H!IANyZ`_I

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_892743.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_892743.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b9efc483c01020b0c1384a73f1ec0815aa442c2c
GIT binary patch
literal 2610
zcmbtVO=ufO6rTN+ENLbGB&IQOW0O>5^JB+}NmEGLG<IyajulGUq_G3bqFvjv^~dbm
ziOep@kP?d?tkQ#(wh#vjRq8<9QfTNYw;p=2P$*`af+4y1=F~m))Hf@wt)?zX>A<{s
zGw;neGw*MHmLwm7)@gq|{*#E%6FPAlUu8Daz$_pQX-pgqS4L)-apr7-8|E3LGZPMu
zyR|ZE>`k;(T^bfOPWNcM?iuAZ;U+)q-NF-ZqTxCg>2+JWz6>LK*6Gej)LR9hg8-d_
zzFA=CjZC1GHo>~w_NXySRk`hbfhN19S*LNf54zv-TD}=LuV$xfkL@GCB9?EddN#ZV
zeZ*>Ll-&awGtljTRcHBM3dLWGLUC$PBr9NvlW>Y9Sspshz`N|Ag<zef==3a*aV~F%
zEC%MhI|n_%<?Z^K7lFs0Z&t_(-sj!h*bOz>wVtSMv+At|N1u8H8iO)O79yCMWSv@n
zy&j0n5I&(Ald?cqGfsSIoEpPwLWyZaRI!>I(+M9>sTvUsGlg}zkuXDqyEtW%U_v!<
z?1o|h)$|+B%`?QGnliV9HIobxFTFE-UKt`{uQG7{?Or0JW15nv3`ycScj02sAc(6>
zgovrpQ3DhzV-i!-5HX>oO>7V^J;vdLgfgwhjYg2R{iFT)LFe@po;1>GRPP*Dqm!yR
zo=P57$MmGxY2aw5sVCB%Fzc*7%Y?@p>6D>&q%#VvEAUJ+l~kfBO;=96as2h}6Cfet
zq>ht%9KQ;u(t8;zK(gp*AUHpi8!EJy1ADXQAOCH(7Oc<quTrumHRiA6lrQj|%<W9E
zq1a#E*Ztjl5BTLPrF~~g(wS`E>JA#q@Bi4ft+5tp%wNu3TojAVcS9xrv25>}6wEgl
zI!X-(OVYvO$>m7t@VSz74!}a7T9_>DmP;YI*ta}VI&!uYI-4D!x9!jM=ld3SJqm>3
zzPxyAV0K{c!~E1@_b>dxO?VSn+=$KS)D4<4uB%#<29n!og>kaK2$8jbEM&75V{<hT
zTB}{%Ww91F%9<_)n%FUm@3TwQ2)6keyq)rcvmiJB1D;^kxrgsmBP~|r+-!S+Cbz9Q
z%G#nSxww`{D~`omg2hjS+|}(-<K6o9FLGf^F1%p>&hqX3VC|)9onVk9Ttc!KA$)X7
zQ)QM2nwd%K;9Gq<7S%DW=1!%+)F-l+2$22JaUwugXpp0$P!r6qlSG)&ampZKB{=|1
zi%mPZ0MX*q1=)k!C{{ZqG&OM(5XfGqcn}V<m+)gyK@1P9SJM`^QXS8AtftdC#>Zer
zt!U6sD2rC5CYl&P9!rh$Be{`6crm=PNB(~I53S#}KAe6eML^^W%^%Jk&QBMnSDM53
z^=}gQ5)b<x`3AE+PXmqfgSo+ixX6|R`@g*W)yUnE<>m*C<=0NH_|If}AM?Js?%4~g
z-e8^sGB4$%yju3YQV8EUdi!XRDYqP2_4?<1IbXi(V<~Se%zQGl*#4<aH;8}K34*v0
zK!H&9UAzzO8->2rs4<;1`3#r^6hk(AQ`aChY{q7{gB!jG)(t$Hv$%<B0&L*`<9^5%
z(%925*SP<U!&4j!L0||GnXSYC4Fuvhb;DGms-Y`gGP~XeYwKs96C8&f)KNr;##2dM
z=7|UE##G!iY674G6bxzv>gbA>cRASA;yP_8PMqOWpmTyMUjvdwPRRtTHt(GU-_G?t
z^)=+fg>c!|p6yv{ZM$>z_SMfvvi);ICBEfl)x0Rsl#Mt(lKnUg=ioy?NT_m`jyQaN
zQ}90!ughT?qJ*1>nUxUdVoB3^vvXbIue?_oOU1Q&$N{cA(R(_P(x&42oA@mNpkJ?X
z0muf&Fw7Ga_!UXNp}lL2=T^&X%QLo~kvBQS1~w?SaX?~1`JN2~!(!7W9X5|3M*7{`
T!ZbbWWl(5;Ie1{!@0|7*iH<<~

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_917011.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_917011.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ba90205873952bc69e922204831e4244da4dbdc9
GIT binary patch
literal 2737
zcmbsrOKcle@a@+d+iU07ltw8{1z6dJBu$A5NGS?!ngo)#LIp~bN-N8|PMr9s-A!6Y
zYvf2pjm06ZIK%~{8cqp`)PN9FJ@tshrIsrcJ%SXez2p`exNu_L+G`sKY7tM`c{6Y3
z&6|1idHbU%IuQ)&!>^`aaUk@F5cc58$o`jrtRMv`R0K_wW@>`6XgbPFuoP0M8B347
zwKOZV%Fej|x<)94Ie0z9D(rQ3y}V(<p>V38@Tvgoj_d41UBv?7I+}3ONOe|ZT}eu+
z+a){w*l~93!nsj-+(!JtTHA<M41D`pig;xJER7l3#;UVIt(W;J=Tju<ilobQn!*B{
zQ?rAu>a;P1GKKZ>ncx}vh*nUDJ_76o_)>1uW!62DmbzLkL{E(t(R7>qESzGBri082
z;7`h9B3P%1c5)W*7#mM{O$un%ra_Lg@l<_{N4)JvbvC`GXM?e=Nj20+3sor_GwaO;
zOP)jn28EJHV*MJql3jA^5{21lK%bR3OdApGOla{bEfAH%3g!b^AU369HWCjgnA458
zrb>;N8pq6qIRks50YeL4lXZZKdhKs?61(DaMuk~JBr$*St%>uHI{ctKa{kRhjo7A<
z;9)KiR^(`DieWw;3h6+W=9mVxgD@YJ6NaW^fvC4IE-KFlB6=fm+y62Cc(3PbT$|Ms
zfuPzm9SF__jOlo+D=?+Tj2>MJ_84k3(F0UZ*&PF%))R4E?M@_RSeL;)BOa53aYdD1
z?|t=TZ!d5#KdWjnHKHAbQ%RKc9{{A$Z#)vc%j22x-0`BjEq#95?Wv)5#K!EUjQqKF
zJ9#U)+ORrYJl6NkJ9pX5ONC=+3gVgc(AEJGoA2K1txD{;8?*0cF68;umM^>o*U9wY
zj_Ap@<hlzD9R;yt_4KB{(0R5Xo&{xI5Y5dN4oL;Cv^umoS$KJ%;2lVhJO-<VGsD@T
zeDg!M53FSQ8zYM&OCMzC@_j$C9sA%5+_WBEP|5Wx^0XRIg5@$IJVY9fRp8%260IN;
zrD&5%F*V6pD{XCo5}-{cL>pxap_u~<c7t9oCu@qW(RWZOFea4Yf6&J%Op1rkVbs}1
z9Mn?5PTnrCr${oU!<G!uDZvnJy{15#jLDju$<BD~)#|LUb}RcAK3Cy$PuYJkzq%i8
z-Q-Qj2ESfz(G)Vdi%4?#F&msy0uqfm#YiSph_pH%4ywELV5ik0G;-?_U9C__z#Q~}
z;56o-PLvpSgrGYZy{9p^plWd)^QCeD%}RLQst(8_t3yb2+A*THoq#3+ngKvPTWth0
zP|wwKFgpcZMJHjZl(g1H<Q-SFKq8@P+DV`e!>8W^kVac#6Dc16+hXJLWM(qw%ljT2
zk-k0j{n4+F-k*Oc`hn&2E_Y@+v-7$62Q9u0^-gpxdVlDlb2NQ!$5Wpk-XdVz-MBoO
z8O`x|N73D};k(nh*0~wFJ5@X}^uRTo9^7V~OMQ!DTY@Lc09Y0?Vm43|p3C`ecirk*
zrHZX5wglI*Gvmzmek^A7m4%xN`Qx9Y$Oe9^{&4>A?=GI>_dLk$O~0)@59SBqs|->V
zR&9L>$O;Oh6#NuifqF_&DY{w_@PyEI?xh%$nJHIIMGqkM(`_P!?gv_7{<j{M=rIxG
z59f!>cnK&AV3(olh8zs&s@yBlyY0Z(9RN_vI0ZXM+%Ol6#AB+&Vuz;ca}h(Y$&GFh
z(8(o`$d`iNZ0Rm{;(1-RQc!yhWcrBk6#!{uMR3oJTG|#N)JsE;oef!E&R29Ehv*({
zzkT`E<<BP5!%O1@w)I)X1mtc?`>hyBZp{bhXeR(*Z^@SK2)vMU@R(r1#x(K@V`e67
z;JRQurW@+DgjOm9CLA*?_btn@tK_;o6^|%u$U39st<WEhD{~R`4Q&8)kylz*0PHao
zMLk09pON?rYTKb4H(D24_h=6#Z8f*7jNKgDV+h{ab*F!={|UkO8AQ7+iM{rE%9}m6
hhhWM#?UQN$6r#i@LMzqu>mY@^FBCm5F1jo${sgm2S9SmZ

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_930305.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_930305.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..8a42c3f3df1291dc21b49e76f4e3b7de7b7bfc6e
GIT binary patch
literal 3115
zcmbtWT}&HS7QT1>Y;2DW7-%6u0kwiS>4xT4TPY=*4GC;gsG6p<A<<4}J!3G~9`DRR
z0vT%uZ6dJt0cX`J&bCs#ec4SDX%nf^Mt#cTs(q<NRH3`9gw#qa-e}0K+CKH%84q@-
zrR=H~=G>q2bI(2J-0%8xQ4AnxryD<>__q(Cujs^Ud}Xlt84PY91t~a%#@rr{VQ0>y
z*)a|y6;C>LJXN<>7?qn0J-tR}3R{0Y!71ET?oLHv%*P-VO*Z~m-;+>ywLuZo2GH}>
z=moYs^<PC}L9i0^G{!=+IM%REO^y)XFJF88#2IPW8w|v2&p=Pl!ngS~rl&W7x^0s2
zM%7-ycPf0#KL?t*z%%5TE%^pVK4{fya8=9RNWqr>PG#pgSj>g2V9g%&H5#7M5Ur3U
zOo5GD*b*(DGm2Qq5+Ppjca2Ff?O@qrsYi4VE99;#sKQ}9POi}kZ{tOtwlW9t$Tih?
zD0nBS_Ew|SbeHvf%r#rs-Lb|O&fC%T@*1<{3-57q(VAWSRqNi!idxN9Q@#3xy=jJ_
zVKj?k+=xyCyiPM2!-PxA##BrojF}>Vtgemga#~6%M38kkGp-UYrO6864O7!qg3rZT
z2p%Tv>(eF)r)5)5UX~1?ih6n5e3k^YX>*HNGnpmAo4*=62^A>}NJA%&59riAo#vMC
z*`y++-41+6OIjjf5J9Q*)K_2&POlKZp~t1HsT(?6YD8F=62D@Y&YIBzYh88P_iy!G
z()1}KE63Ho2{}F`n-f~*XY#n3G5f$opQ)y^eK6~*9MFVF7+K9w_hn}#SeM|yrk0W7
znxaat9DMoU%ZGtOgeg_es42Y*_N8TD{1=Fgo^&8FvNW6@E_N@6b`~#{Lp}D%)lhi*
z(wf-(-q{=Hub(gew$!`ax~DAeu}`hkTU-;Pg+yMW+{$1r(pWfBeDNb(?7e=h^y_l;
zU^#N|UgFa?9&!)fzOVfwTs|^dj*QwvE5W8eb{EbSdh^GMqosk5yGw&NrE>5kdtfyX
zTI$XB7Iv3f9tC>r6Kj#?!f0{eqweD1b*Xfv+<KrKIdE_E)8h}!2ZQ&ehgZsn&z2)+
z?V(jpSQwfgT70Kqlv@7M_UE=Qx!s#^a-`D)=&eBFwOB%t(m|XARNw+yz<{|p$H2$d
zRCuihDA1Nid7NNOcLH>>9vU#!YR_>s_UhcrJkG<7|3B>Ui+B+<0KNS=!EEpxu>=QC
zIE%Nq$)LAd?G=6t1?%&LEk6GY{rdbZeHtN)vDmx5I~9z_$l~8bG5^SV7dS+?__QL&
z7{V*&Y*vMPrOqVdYP<sKj>|MqQTR3|fV|H<>q*En7Nm~`zyr9Npw~+x26+d7J^2I!
z4zeRv5CH!K_lAMLN^&N~5^nh9x#LbLIYnjA`suQ5eHZk^e>5ehf1}9#bM2ROIh$4W
zeMeJTTuvGNFmPFWK+xC=<Xank*mi5j%^juDzn;4nyDcrZzq;DKYum~<EN(xhcZ0lx
zl{yVdjHz)^AUptKe1h<R4N8Xi5&)Ct{v(73>@a5?3?PDwj4@yJCR9yO5To!(Sb#~w
zjRS@n6vf_s*MTheXuisU^h3aT0Y2jvkne1?7H+f$S14H(o0l%+FBE%9JzuoPK56}X
z=l#xyGmpd(`_yV6va~n9w=h$j`J%1ouKKt1?exP_j{;}x6HhoCI%W?%5fC3-JT(8>
zia)&K4+32h^I}0>_CNphIJgwZ2MYWDAc9nN2s+`F#^>PwKdnJt*yuo^h<)0LTO9n{
zYV@KySN=~hxPg)=2Q_mMsv`#%zgjQwFfv|M<XDTHq&nN0_Y;R!(NW+j>`%7CQ9Blb
zD&$9E%sTxgrXK-9f~E>@NnAEmX+LD2#((`6+ZYFcL6bxHcuLEtF^>3j)tFA1@M;;!
zIhDRviZr3hihcmZ3>pfWU^l-l&JLC5WX6!3n$r70W{?VB1X9WMMhLa-oQI??p87h_
zROl)8EC;#)r8~QBoxgehgA4ZH;&7Sk_+Q2RC=|6voJ_?;{Uz8(-wlLBTwnI3;O(D=
z7m@hAkxqYe5Oy+Yl7_gJF--MxR(I>%m(e8n*`N?MnK7McI7c8sHxkmgmQrpb_c~Q>
zY+6&MQ)<6Xk4e$T_#Kc97GwMs3jGs_|3W+0uy3JbzGH*wz_E>H6mDF)n7_CYrL&gG
z>~Sm1Hd(}kT&bTUCStcPbk2AFe%A)mh9iX&8wk2m^fB$IWRtVL*^jXJ*x!Mp-wa?B
Nd0{#H;(X9?@CPAPs$>8F

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_953212.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_953212.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2eaed47700270b5c5e4c0c70d53de5a42681ab40
GIT binary patch
literal 2569
zcmbsqU1$_Xc=q=;cei&*)KG(|2JPYclNhyvpw?<k(#D(=Tdj$(EVrBFlKW$J6TNf~
zHehLvKIBRtJlld13OyU4X(?3t<a=LooGoE$A)qgLQ`4tD^_#uh<V;hvbYQ;uX1?E<
z?`M9IWj})P>qp;?mPCXe(~URS8nQYJ$W5dpok^g<>dFi<?w(C@gFJ%_X3W*&iB?yg
zy@BRyM}wly-9UrBH7z{sBo-Oc8b?ExQG^xBAB{;hF}esaIhd<OhWcRvtd23yL+=1q
zotdxEbJ9yV*)`4voy+-Q25iapPl3HUNxn{b4b>UjKVP#A_dy@CIvQrT19b{!E@(H{
zfmhNJsMkXE)M=6Jpe>Gr6<fA_be)2G<w7=sbCznSwt&WYcrI)+u;;x!@ChECYplBw
z#ChYe!*=K%?|GAJs^hMYL`}?Yw3}Rh8Wk7}$|6OGV)`U2^z~O70VoXNlbSiM2!yo~
z#Gk?G5v(QExK2b3YpD@~@QJjh6T!67*if1YGeEct6BY?2H4DeDt0q9*xV~YZC4uyW
zwMMMlWQln3oxyYJ01>;@zH@JP6Co4V)ns)^5#O2f7tZzrxrRiEm>wQBfuXvlFnt;#
zCe@6EO(Ib<E+!<^NiAVE19jIw#$O+FUQ6R~Go!_f&QUEku34k$)In{;NLigGj&)i_
zGSdmW&f2vsxV)K3n?^?_tHQYo*R;|pHI~*5_4u1d4tE^}3K7Q*oH7#lb+AhPG8X|j
z=t(d%JCGkJwpW5XoO6#}*e!<|o!%u1mgVNc<-Gb8zMZ|5Ej5*TD?5+=@ZNoX;c|KB
z$+CRX=~>!@W8wXuyVg0DgUy9Y`3rMmspU?%96023FUz4qOR=New6`qpEgf5kmiM12
z%V$7Y7+8zr<!wqitdx2dhRO#{m&2!>KI(06zPHdbxAkE#0{-&iCw<d>GanWv=8pcx
z?_GsEp%?|;pnb%x_7Y?gbR8y#bT-G-Wh70r4Fjrz8D_1u)3ME}mV*qhWo(YE)3;eY
zFg8^5f6&KS4W9AMI-!kp!K<#9a5C$h!)%VXWKXZn(+*>^HfOVAVefQ()kUwL{R`c<
zM(184zd3zf9$tIC))yFLa~F{!MORLPD=Q8F!pA0bO<{?kTiJ|3MBSK-#|%vSxZ5Kz
zjgBG_0qQ<BN(86}9jbE}x`EYoj0jT(PMbummIY|j<CAU`5V6`36amvx#9OE_v07Dx
zgK8!G2y_gS8gk1Nw^0t?HLPVa2F8bAN8iw-Uyg&8<S;FRMyKbI+&nv!A1X%XB8%IV
zAGiI~_I=xf$%k?jNdEBb{`~&JWN~t_C34UBE_pZkpy#2#-#Pmv*gV^x?=OmTY$dq+
z>r3AZ-5FYFx!+uQ<HTa%q|^O~_s<-iKEEV|3LJo0IWHHqiu77Ba{J(|gC(ZYx^GDe
z%=+{GLf5Bq!Mr*3+0<P7=Q%1M{@EZ1;?p1shMjluPVo1IBB2lH7ReWY+(dB%MZ#Q#
z!pJf8sSO_j>!n?ev$?Ta`h(Eg@V;M2QT7C!>fHa<!&5yrg0v8#3R{gkjR^@@hH0rW
z%{0_5g<aVNXSjU>;V?+hKoKF9NT&>iCq8VL6A244!i-NDv|H=ysG;e&1K3RZ6g1e?
zSZ{SL)Eerfsk#}4j|0yU%6t`ogWNU=Z`-nC8X`Q?^Tgj&h!i6gf4g&bxoy|&E4QwE
zIpp-t43zoSS7nn>aElXlBc=Fp1nl5_07$s%OGg4eyb1Udh~#0|N9o*H+;WrKy|n8o
z2~;nvj-(U%UF7Pl-cCA^OzRT~;}m`iWa&?9o&xZcV;JT!3jU7dKhTb4#`j6<bn7#=
nkx^DT#0H;I?D-y<39lYNjQm_`Wwt!)W>9!{CA4Qc;OhSyia<D*

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_984648.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_984648.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4e6554382ea0ecf48cd7cf5ba1145872db5e398c
GIT binary patch
literal 2593
zcmbtVO>7fK6rR~#uN|+~HYBAbB!#pPw9v!~iULssDryL{B`Juu5(a6z@@{@@uQj_#
zNVJw5iHbx$#Gz7S=z;VGO(YDe)T$@$T(E*rG^J7`xa5|S_R>?|tbbxcDq3}<eKT*~
z&%BxUy|)i#*^gj6{PKsvyok^<#*~MrwAjeOVjk&8$8i)b&Nzx)o=fmi0V4wsyMD^1
z#aZVJVL0&e9^-U=`~7}F7p@A6C4;C}_gqC$U*%j8xEc-_H5Cp21XjFjOuvtc7e0!f
zQhTY`t)4k`vODH0xnUE#2@l^!9<!U+K#OCTE3Y<Z9WR#TY2Rx!xr$~@m8P)itGv>&
zBQBQCO8Z}{>#gWYjvwxizT$M$&+P_xjyM8-9Et6+{nD<N?M_16>41Y?vEe7-1tyvG
zRy(dNNy`p?Md~R_U-2lECFx+*Z2&=Aha)?ICBAZ>P?dIdhDv5m&<VNvEL$)znm~%s
zN7&P?v8*VV3JJ{`Q9P8h<J6xb<^a(W>X1%FjcCaMg9>p|)2YX@O=2ivihC*l>8MSE
z3C$)$S5ynAZd}>IPf*DmwJX9ZW`eL-2umvUq=s}gQJj)gh?#MV3d9_@h?j}QgqpI6
zMMbkX3u9W`vce$Rw`KhGd1TxqBUVa_8IeIPHlo>sX0k;aFp_q}BC&{VBvKLJBBiKp
zxSN$SEu%Fxp~Aijx3JBm8Z&i6?L5}r(S8ghR2(r#(uk8ia3)KJ^#n);{ozM)XtsBz
zH`lZrXvmy;8VFW#&n0=bbEY$UJ|`|qdo$fnxA3ch@bw+p?(Caj-%|*@vtZxuzTb5F
z^!MrfSmEIDf^;I&y($N@b=S3AU3OruapCR4jz~d{<oD<8U(V;p@3lN=EgU&lkk4g$
zR^)KDJty4Ma^AV)3-1?dTMKe)zV5#Eb6tMmUgLv3g|@Q=`D~_#MRj!MXtrZPcq|=&
zs08uanW;0=Ut~X95S|DJHsEF`#z=XvPUBX26p#Y_3a63IrEwMFN)=c(U^7$;?&s{v
z*6?=K%P$FwB}AsVDu3JI9Xn8||G^)xd(whkQx3op+$!fB-r<I&^6uuWi{+m44{~os
z&cDWfd-<k4yo~PCYnJ?rrQVK_!(Tv()VG#_fYv?$0!1*YYYIm_x;>FHsHhubLoq|a
zguP9XxW&t!b&ah+w<bB7P{%crvZ$XeEgOJuDI)bi&Bg|)2f(f;ska|0*>3Bgo=Jn4
zmJ4bs7VB5>RF$PzEE38?2~%MJ>f2%+->o@P4=d^&Ct50H5E227J+SpHkPHGeGDwC1
zZt~9AOEZ^p%?r(sb}K)=@lzv!aqO|&m+5)x56vE)Ih-BKjXm1cyky)>+(|s>dF=lr
z^Wmx#V#xGQw@;m2@ddLykXd;~&T7lPw{p$5T5h!5#>@4GR(#T|f5x9}`&!Og^OJLv
z3r*jonSr>nvv#Gn?oZk45!b^g5XyW^8X&ZnfX&{{1@=u?%%dR$z{Z#1G1Isjj?lol
zN~7f+ez*i#Fsh95uhW6j=z?9H|KEND=Ep$*3{RiJt+94T+JI2WHY{6>X_le3fnXmK
z?A;<bqHu0bs3#UTlZGNtFEOmqxD8#@8k#hq+lsn6XlOcV0aJ@T1<PwOt#$4RrB*m*
zsV;m-C+KuA<;y@aXf+tloL&#0T@6!^%;}!z{vFxoT=TNO3G&yt@7Bc|7r(odIX&H5
z5bFP}nhynPGktER6p0*!bEsGhgNBN8YaD(?qkwDbE3XLq;Zc5g$fh+hGilkzl@xJN
z?LL7UH<gOlR|m|veh0ZH6z}TmN|^d++&Do_f*bZPw4y-Pd5rNh6!;a%zoCXz?7db$
zRlm-Kar3%}>UPa{&2_DNi`=32?l#<Mc)_?09&rIz>&5;s4s9GkSbpKF$F;wAV-$LK
LIk<mHa?k!71sp$1

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_997014.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_transpose.py_gen_triton_code_997014.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a9e8ef40b5c3d7393613d9c80248988127dc75cc
GIT binary patch
literal 2822
zcmbtWT}%{L6u$Gj!~V?zN-C8WT8rHnMNnxprhoF+R%oJ@Ry0ngJF~E`yR)4cew|H*
z)JAC^So-2>o5&*;l48=Nq)*1DCVg>(X~?ZjNc4p_6rcLkb7yv7`7zq`CVTHW_uTVy
z&pGqm{Ua3eBN)fTpZY8xLXQaJ4X#M6<$<`46r@l|)Z?yH59RQ5is@k~q*DEk9Z%I=
z75WOAEpGMjG*VH2c=HLuc_$P`6%<w#;;h15VZGg+vUR`w71ZMgEB<v^V3dmbR)~?V
zm_U}|AdxfhTRTjX$W6)<^aH<jDAa6Go)unjl3qVqW(k&W4E&U6uv;x7$e87uE&3b-
zan^5@S^P`s@tgDlmfzxCj{{&Y8?*wO_>hGxKV%AhLn|mw?*U&HP5cnAR)9!|tSDhT
zNjAJqizoKCY52(Q800A{mfV=%eq$?ai3&5v&XWAY$VM#6wN?@t>-l%Rmqf;Sl5F`l
zEhmO;8cw`UWECZmm3D(02(rqp$WC2qRm^c-v=kaeQNBwjC0ij~(OXnTQ5v%;*%-i_
zX7;Iil+sC)MR`n{N$k()TCXmrq=bTbS(nqjDrS?KtYFSCHC@Hjxo9P(Ix+L<pozmN
z+0+vwk^!@#j%?vaaX=e1*M%j_DCW<8)YB?;V!lP{X#JoCbD4x9rQ8KPYw@@Nth)kF
z;w8MZDp)Y|n3OSf!=;?tID3k0%2-egvnVALks6h7#oF!TpU)bGHGROy$T78{PmT@9
zW}lWmDEF#qvjLnmm})B109-@yrY5As$Y_RoC^IU-z63WnwX_t|6jeHY{GG#%M?r%5
z0aZ_{Nxcr-lGZW~K?!X1tO|w1$<B$+eBEMjuig4E7%t(KLlwF1iAz6zc`I=vF+<HX
zFTU1P2sPPlOV1N5hbnXN{LqwE2)#v)m2%5sB-ebiE`Kh+f9k#IONGiK1@XvyeBs=^
z#)Z%CXupRG&D{mD+wNG3RDJ(deqU~QN}R4QMBbk1o^ScBZod7tv@ldS*jf<V?2gA`
z`Q-4#aBgI}Z$9=wJYjb%ixBM15AtTdeM*|XT-e=I5S!+^7h3MsEwtZ}?p`h&J5vzP
zyrg-SzuGb0aqWxT$n~+Qu^Hh{ws8&8hICRleHTnI(#YN*2<@QaX-MmfP!aHiiqod2
zi~4s&w>jGTa<X*E*S8ZcP!{0Qf3U|WOqMmvyZ|iL#Waht=>CAWyRj;)ht1ECbL(>E
z1^PS7H}oMhvqgNNkj0!Oh=JMIpdtfEaEdvaQ8BNmLy4FQFhTO>;E6*4U~qs4u|CYf
zH=(4lFAg|iHa25!Ow~2R>3z(*&=BP|DoMU#f*P0sbiiycK!-sP$oV?;TA;9RSeG*y
zRo5GU+Xp}6TbOM0I8-rtVd6r*e!Bktp6D;Tf33Mwb9d-LsLO79=ocpsOdQA!<%jN9
z)z7Ivr*5b2wmtBFVxL+Lh<3|E)_?8j_~|7fyd(r*o(xTda`K|^%4Rw+>7VfD8ovv{
zsSOfz!q3XfIDWMX1x5Q~{S62w2EX+|a^rO5O(3qL1j@pTc@cUxOO^H$ydbpq8fF=b
z=`X%5>vn+f{u5Y8p-%#@F#p>QOYB$(>dSRS>6Hj@dLv9YV5)$SG1*Y1MiA7(-pc!1
z1Wi%esRQO>NiD5LS?tqQV=!qNP~F6sN^n_``czrb4}z*eQbB6zmU5Tlp@@=0hUB!2
zege*XNDg0w$wtfJh~2&#L{)pop_JF!9{bC4_4)cme;rh>ruNqP8|QzxV7FiEEU?ut
zdrUyVO1sOcR5YmX2S1p1!@#1u9!kRVHV9ac1&`9<pCiIdf5LRz*O%5Lcn%fJB+{mn
z1t)YIa5EtFYDwiba-6u=6;7r!WiY9}tDgc(<lQw$pR6(zMLj~nzfkCJw0D{EU9BFk
zenP)WHLWp-4z3bv^#r0td-v6v@tUt+U!^0Im^-zKV41FbN)~dm+}U4iLR9FfP)$`n
QX`zt#=3;o?c)$tbU;W*JF#rGn

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_164112.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_164112.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a54780bcb5528b14874b6e29ac5c28ab703d1c40
GIT binary patch
literal 3896
zcmai0U2Gf25#BrA9glw^DOtaD06L8oQL&{^imj$_98;2i)HpVrq-m_AX3xAMMT$St
z-HDczBTN@=O~wI4HAsAN446&>SdI)tZXas&u}=Z|B1S?gTvfn8^5Q(vk&706>g<t6
zQ4Vb{aJ#cJJF_!$v)}ID9S$pk_WjHkW1p}HeTyeXV=Ba^2E-M_Bc6z%(eg-)68fBs
zn?@-D2}D%4W2lx#o)oC4eLD}&cvF3Th~lY>)KW!Z)XdWYin{9PGmqh$>+?el&t9ZP
zExhF-8nu#0uvYi5%@AJeeZ0j9%{+Mg<j`w@D)D;IR<pMSXcK&!zbA1vWWta|Vg6|2
ziKU7>ZBuNDWtK)LZCC6yTGXRDkQYL+ELE({f;jEqiF8Aaj`2roR255zkgM}3{KH4v
zZPKurcFNU=U@uCsF5!rv4WnP*f&Chk+TH4VXf>?q9=a5yIG_^H??@hn$ab)$&^THw
zRa{ttWfciyNYd^fX_>|$@*inXm^%x(OgGl#p-xRHZl#eo-KLC)(oG7XxD<1B#~m=!
zt)-ivVrhrcyv<UJ;;hkV!1>zVlqRKRd!%?*p1#dgbLD^toFD#~LJFxk6t?PBE6nuB
z(`_|-)Tw!;RdFh9x6MX;1e!r!_JoMb#Y<>3FV9Q}VZ$#ksZnuG8rSHgJSK?uaWTRw
zikpr|UP3hEsYN5@m}Z?2lVOpI2O_-2a3Yro3mQEuh)GE^hhj-i?(fs+GMj=aubHH&
zxJFBIQWU)H8to5E$f8CMmWLsIAWmq+>zYN9#RxA1xcC-1UM0_Nk->zB%TUDirkN(d
z5sR2S7m#F5lr<(93Q2*4W(g)^6_$w$1}l8<gagl~!S#S1FN`TJCTaB9GW%?WeYV05
zmf1m_E#Y$YJg)ukbnm&OI4(_aL7{hy3yyR0STeDf3kwOkR}zE0vJju>g;{T$gGi?X
zDIo}13B;#ja%7@sVkQ8x07&FyA`nbMCVcx}^7;BeqFLgpz_=hLgqXMoe8B%hIs!i_
zgTAxc=l16Is>G_bBQvz_YRZS_9hs4JN6WRw>+K8e1z#b&+TK%i^kk0QbGb7k8=%mY
z>&hR^|NQeeZjRm<U9-NJ8QN&>P<<*_X#J+yo3*UFJFdNP{q(}=!sO!ftIzZm-F;bR
z-PNozS0@Y4spl4)i{4^ef6>*y9J>3~-+Xs}btn0irMUl8(RC_IuQ#?`b*sZ_>wIs)
zUu@jH*txvpPm{~7w|ejTi`}mj-3PPGhP&xX>wK%)TzGrAf6YCRW$t0~h4x}wchS`i
zM%=CHuKA9-D_Prz;#?}1%7@fcf&ao^2rry3w)8BYT5}E**@2v?)QnoXOKr%}m_MSP
zF7D_o+B-9c*BwoHE;pJvvOzJIj$JsG{bhbg4ShrH-h^}_jqq#4pvH)TJS8TA6<Ea*
z1c$K<<=;cfFVR<!f};3@JkpFyf+xnipgaLkp16v{t0eO;;CeGOe@lSn3dGhL=Skyw
z0GsvXlp(L$q_^3u1I_P2gdfmpQpUxkw|bXBj)v=^dX3b(w87&#@Cr~?@iT48f(_n$
zkxf&w)7VR)bm&I_x~3crAcvxEL$)>Y)wmubug%Mo^-WK<&$B#x+p<)-?g*rq-b7yO
ziTk(=M0}OcKI8YqrzF{PR`B!<d$<Je8LTpV!#b|cK0A^~2%@KazCC;-E+nK#G9i^0
za$!*ryrhWJsWH5eiUfsVZ5_cSfSTaj{26o~6Hj|I<e*x30_V}VHbMk=O`g!<5g?r@
zgNa53`AABKcmXi76%-^KmnS2>0E0$_0e5Fz@l?-&STYD`c(4a^I`O)nK=<Da+Hkd8
zvCZ35zbY3-7S6A_dRLsj71k&21^ImsbP!h+l;Nr{LGT(SMP}i4kjA(P7y#>nV;T)0
zD9?zv5X64mVLa2AGWL5Ju?O>dao2_g#E^)SQFa<9PDkHEWyi^QO7vqMe9~9Yfv4*>
z``o_VzRLr7?t=rW|N7yD!=D~4OkO>{LXE6+kE}v(>%xon=l17!U4B_5t}_daI{B&P
zYum0B>gdW(kFG**+lAK*<OVJbXZ)GT4c0Md%h~d$^249gHyt+|%iLea?u@OmuV(xY
zDT3~M$RN5Q%U?LT&RVj*ESGoZ{XovKIX3UU42oCYnSV#+K6<yX>t@%Du0`J;Us#;{
za{AWvU1I6|byuT0_-`{sGbJmsJ2J=gv<4xdYQu*V=XbLa3g&5r5r(q(jDVihdz0Q%
z&{MT<jPz69q-87HGzb}&sNUcmM;K)XAW|*kXca7smGH7L!|}qe8yo?&Z9CUnUtV2-
z;Pm5mH34jxc*`|XKdN3+xNN=jYK1_DDg=9|Ds&mV9R|_1CERK7JO=UXmhd@)*J%)4
zhu~yQ@f<vm^h$mi_P>vxVsO-KvLMNUASVfdzS>E@ml9urC2%$Y8<L`4zxsoTPk^Xe
z{hG7#5D*0k-Undh5k|j+F&&?V@>wwJ8^VEj4cG(lN$*3KK@VAEX_&L;?0-mpcK)x<
zuSecpX?|}-7++&!8UJ@s)>sr+e0z<33Fa+rs$2DcG?qE}(2n(R%@3+%VgDN2U0z=1
zq}JHZZOcn`)b{+n*3JhO#?F)wLo<2}d+mC(;y&=jh@dA1kH#r@7HO<Oi5Pb^Q#2yu
zcUwY|h3N^gf(&nM<w=iCvsF?OPR96KNZ+QM0`@>W$xp?EgW{WD4p*df9=ei=Ac${~
z{h!G3FSN77Ad<b*aiOC`HWQsIXMXdKGtuIiXbIuj)Vcp4lp+Sn2j$@h%-u90(yp&A
zz1ToFvb*Q@<o1*hkm|nc2Nn+K<l^BkkKa1JiMc=Y>?D{6hX~|sxg5D*(;fUjK}|tW

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_205689.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_205689.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..828abd5b4712dd798ce80421b8282028a1bcfc8b
GIT binary patch
literal 4519
zcmcH+TWk~A_1^J}J@$-~*gz5<D;xxD%qxUPASeq-2;>2TLeuS%UDld-CW#$C!ptNj
z=~y)t6)~(7XSY>Mi^M}K5lTL2f6A_^Zns)#KdP$sCR(CdDpgv3`15YIQq`}XJNDSl
z%0NHbEBW4Y&+DFZ=ALt||KfBy5RCcAZ-(pb2z^a9=3w%`%AWz4Ln0D!2=(Vy+>ebt
z6}I%#7)dy2=rKiet4K+7kY9}>JJC`eKS+!8Rr+CGpx-7k5(-w8k++t|gS_o3-ESA!
ztEk^WA<0qD#Z6+b{W($9tJ~U7pFMuccg6&I{ancz5Cvp`-%1?jIizBf7Nkt5xQh5;
zo*v^~!ATW3d5zQTQxM$}3A(7$ghZ^_ALh@T0%Xjo@tWhml5?z*t0+0gYHBa8np3lk
zz&V-|ydj>$h&f*&Q=!p@Oht)I={ampPwA}Lhp<{el)Enr7SrxnrRp?UAr7?WFfHpq
z7yk<ORe`l|6Ms&LXpmYDtQtciqg81YBvyn*sCk-|(2N+mOb*RPa4~m@pB3hb#Z^O^
zi^!Q$-_vWvK*S5QX<g7&lr^E3`&_scYhGaq*4(9*<l_H7I(w~FS#rADw7j@#YqYhi
zeJ9ZqsRhRTVpH(FVwLaxjfQ)qu|{mynKvs|U7~$$QL71Ql(x?Btx~IAu$r;NXcBpC
zy)sFG=OoL#SZ73aa#ZqCIvp025uJ&u!;%bmT9^nZUM!Pq=jC)t4e5?iIXWZ@VP8Ph
zt%58>h9sT24D7H>Npe)tZG)kxpzhzNGdU^^TM=ZVx<wfa>x`mCWyxEk<2D_)>-e~i
z&*->Uw=1d~5G9`wE`pH)I8X%rVVR_pOmbUiMgyV`l#(T)Q*s!75#1vA{W=Cm1Tb?#
zX9kP~3pyUq89&(=E-5vj!c%_y`$EIzs63*K3Vx|!Sn!Vs>Too&TNsieYJ(#C8&oMg
z+5o$TumFZn_{JqaIOYqFh19_4p3zAk(0o8qqY<A!3XbjDd$8$nGf;GUc-%K4$q^|e
z?*t2M@KX}-DdOlEUomqgaVAx_$Zv|Dc)Du0Y_CYxBsSmLcf0v!^PO|^w#AKmGxojl
z_7@VK+PRt9L~U|Q^3v?~)RvU6X!pe1Ux0P+Gxdr3WM{JZ!}j|<cYBr`4e{g8obF^}
zQb^T&>8zW^%dR!=w<XnN=j_JRWX4rL-}Z=laPm>d$90c7Gdo)zPiA&@Wn5j;%(Ba!
zJU?5VYR*(`oo0v|or%t5TZ)<O2E*NV-<<FJUE}<ZGg}Wn#+j|ne{wDH$Di;gGyKWV
z<j<!*om%A2Pvdf8m+qc^jF<Q$Pxv=7{2PB5_$2sIaFOo@(^&33d1gE@4#w7{I_}k_
zI&bcnjm$SLRqoEPyAzfyhbp#YE0D7?xjxYwKe5a?lQ_{7?|4dEuXSDNnm(6Ym$;C!
z+}Zji{rU=g5hPcWiChtXX^SES)M#XX1nf0t4rwS@Xl6jm53@yzc%&ZGtkLjGxhTS=
z*m|Ieo031npt<zqyykZRcb$n*ps@^9q>Zv&)W@vSSEeC?o-){iJ=Rt7Wg4AYXiDXp
zPYJcmlVy+^NAfPP;Qyf4h^DP*y-J=S#t4>aNeO0<#Jh|gfGrcB1=cL6G0QZ_iuS8)
zj8+ScO3Qr*q+!jHV4xJE;2QJ%;wsW+qj~|o@VtQ-y<Fb%a=Pdcxdr|qmpdCH&GJL!
zb@o0dS4bvaPrcUW36CkNXF&4o>+lE>(bHZ)G<F#MVro}MAS^|cKs4eB2NbA${$b!(
zFG~_2j5=rt=4#<oeRpJZO!cTB5tWsKG7yIT;!%XK<PoLufM1%bGa68l#b_aoO`fRi
z$#)YkC6hX-TXPcr(v*XqiAZo(4#V_I{HoVw0zR~eNt&2lb`V1_s9vM5Ko_*;%C=7X
z#lX1H6(v=WiGV`F<%!EXVA0u@kPsdag`-nz!{d8eLQ%gEQjP+U!)_z|q<s7<j&4=o
z-gt8()INIt!h_1i^@lUHN90{Vd)`VW4@}@-p{;oxx<w3-UO6m`N^%2`bKW!1V*JDT
z7Tee)lUKaXKqpcsjaH&tb6wPHEmkji0}-z!ob(X1*qkHelN+6{HRlW!9+!^-?lt%+
z+aS7N^)koL984U%aVRNVZ%MV?K5_HJuRHHt`qk+)-JRaiy$CZ`PnZrR4qfSpx5Y2z
zH_67tk(BHDu{7P2-qf>5_e>unl*5U`$xCw+vlCx%o742Ebls^%n7Pe)sb7rE#b#q4
zO83Ke!|Cb+8ScPi*C#a})qM7&&o6#@ajEaZlRhESC!{+DGR*^7gqSW0W(jvuP_JQ=
z<_4az&KWMjCC?>0?%?~jyS7L8_v~-kCAK-<_7!&|-tmlfPK#I0F0=OO#%UqxO11$w
z!zS3I>jsF;y*2w*O8DUI5@ab@<zB9G|I=w>tl28WJL6r(H}pfu3WHoyqdmAGhOfGb
zLvRo8VVEgnwiq)FGc7XkV#}BJSm{5SG9^E!Wt9Y0Nlq98-rBgJi7I(9mML|jO=Jx{
z!~+<sPA<ov<2LPl(Ww?Fe-_bxi-Ih3^m;8rIqlhFc>uNM0k*Y3tTJ(HO`x_&++^ZB
zCa|SQ+-l;sn?QXlr1F?3z)RLhr6xH4IY}MJZBCUG)#n!!c%YST_Iqi$8Cakg80E`I
z4&zBHMu1d!8|an!H=Zmh@bm*E-$U$INcSMAmP<67aUf({7obVOQhowc9DT<kd&LZ&
z;NOql`{~D(Uv$5nUiVH~8d+jP@iua=3CTDA<`R1V_SLm1SE}uU;rQ9_cp^tGeS3<!
z)3n6y$g$@z<4f%JRqR<F)xQ3Zn(g1%t-Ljhtc=yT!(QI-R&E4aOb_;i;B`L+FJ7HB
zA(`|K-4YC_y4@d*D5^9uD(5RtUolRGZ#tI`$xt*TK7ck4qGsU?N5!#_bX5KU;7BD`
zLNH}57~`)I{}pon9c{{55yf8HaAiZ5a^w2+`MxLT-_4wVH;c$FF!CfYmI;h~OLi+3
vMDYe!c841~r?<`QO6($h&eXx%EjL?M2>5N&CT#tt6{E`P8-XjFVa<O4oer4i

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_334537.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_334537.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fc6d1b245008b063eb8beb76088a7c6032d8660c
GIT binary patch
literal 3885
zcmai0TWk~A89rxbJRaZTI0+^|TFj*+UI^I`E*ly_5>jA+4WvsK2vpW&W|BDZjhTrz
zWXGzhSYg9fak^SzDkK7}gxMgmeWQJ7SF1j()IQ)Q+D6l@v=Y4V=G|<is!#pT*yA{<
zLyqio`Tzg?xB1U^&R<<FJA(G74?i89<Pds67G|@RCQEjV&>bWq5r@!Vam0hzSW{to
zkikg8V}>4cYjG4Qi5YXQq>+_KuR&+lpj)cbhdGhG!OWEm3|d92gvM&C*yGlq+p5!t
zS<!xj8MKLx8)(o@A<160;kbtV&R4`lzmDPej&AKebN1NjK)*S8M{rblKypaKe<@Cp
z9IBAXVjF|?>L%j35<lV49GY#)f>6S#IV*NCtM@=Qv1XeqX`2Fe!nLlv-IPz%XfDk<
z4!aZXie2pgThVMISS^#spjKA5CsbK$ty<0jc*kk>Ig$ftedy<(fGv;a(P|7|>$EzJ
zGwj!ENOM6=p${n$4O5#yTBAt@v^qj1^b(aJRI=O9(4b+^VKHfm4Ha=zsXeVhbFZ>e
zzf%7cd;^hw!k9iMyz6M(pw+LC->B7A?5H7euWXuE+qlXmL?l|Cux19QT#%*OkM1x?
zqu>j%<>(qKG*_u~tx>Dh+)u2g?-*S}ey(38<>AM=MO3fFq!H5_KczEaUK!UdQFT<3
zUy<SiDTbd6Dt;`J+V$IXN)74um>eCE`EVd8>MSqwkr7F^Oi6N7(XGRwD6e+x(=A0Z
z14~h-m5H!!QPij``8VmfN5{Q7KBn6gRSt?$fDbQEBRW^24wZ>QSSA%ClX90KH%KNW
zsnapA?-&Y2h4Fx*^0KP4(cxhw5Gjpeoh9+Wn&t&Tw;D2mu<kIV!U17ImP;Za$_HYq
ztmy1eam2iihjdmjRtl*<-&*azm)hQs%Hv9m7o@gPUKr=q(P*TVACV$zn<5KssuYg3
z!Ky9HL%@@PxFkR-0^x~}8jS6YT?+s&030<M2?$Y0NJq#1109Eequavqz_=twq>#J^
ze6Ye_>4YznMBlT>;hJtuw`TFYeRJ~IV%>(Ub*43WdePN*Z{PjSyPdNGIqUqEH}kGH
zlgGbyxu-9sFJ-P~o9A8IlgGbt)o1whATaFC>6Ua$=0v9RcfF5JJvg;sZ%ZC~S>KrT
zWP7sje^uX{vMzdmFw5q>yHbutPgC~l%+?gU=&8#L|7Kv8$zGU==4^Ry`)8*=XTIP+
zx90bs{IWB@|9swiKJWQiQS$QaTlo#U^Pb%)_G@R&^ojI|%<)<8r#QDiXMM2svxCoe
zeu1Ag|NdxxTkn@U7M%SlTp^ZI7MvX^yvR8|lBeV8c!tkz%l19omOXLzjhRTUeZk$D
z=UUTr!HpVP3U#Q)o$+S<dC!i#YX`)~us2U$Kbd+j^KLf&6|-vzGKgd^={7>Av$CX4
z$Pu9ufZ@0mVft^7>6?~2NJC@fG^}doH6Y^g7WgdIQ%Iyt+Apz&U%Q7c?<rqdum@GU
z2(Ex{w=4+?G*)_9@<y~6;7FDAvCBTF<ggfRtO|&yEnu$-bOW`@^}P%u2|8sN#v*rv
zOE4<QmC-cD@B;w=)1bj^(w9fkVqR!#@aZxiud|<iJs%>YM4M=PVxKErJs7T!cah)G
z|B9q=%Gu)!PbjKyNb>FLlZnifv$srY?=v8BYD<rgkBGirpEAnFB*hnu2+?qiSA#<#
z$xq27bvi3b@t`0HmGwcgUJw7Jx1jq3uXoX>;k%2NWX}ZrVGO=f{RY+nEVD&y&>2At
z#toR30PYARDkK_TQr-=N&UJ<O@Q}zKnQ92f_jUm;@*(92Op4TIB2Q}mKS^}Ydw<K_
zEdUTq?$TrT{HC|^jfdq{;JxaG4q_{#te?|qF-Xvx<UqFoa0#Qj1rSZWW@JEahaCnu
z>1+|X{p|AjDq?mci0I4+fPK+xQj7+gb{9RT!g2Ws(6+)~`3rR5;-bSjeIR|{_Mr@a
ztLr(_oc-ZE)12yh4f#;|(DlA#Px2~}fkmc0eK_m6b@VyY`Mjxfp6N^-eaX3|9cf3V
zCp&Qe!rcqGfu|QAUtHi0CVO5u4k!CwGOm<({p=!VOSPwX7^b;2m+{<oWCreBoVl3g
zKfXM>?NQ5vmR$R9cjvA?oqRm`49|UF$S>B`Wqbc^vsl=I6FFVUlSV!T2&UW!dXulV
zR0q|vUR8`hO+3WVQ$|l4Jp(;c`7}tZ^N1{JS+N5zqXIm#uvv2ns^T$G1uaCY$QgP_
z1khGkt|niUE+JN8Evqy<X=u@QkAjM~_xtJ6bEI&zG(p{^3D;d_)|#{ibJDoXY%*y+
zbFzJzxznWWGAAwFaI7Xo9$q-4kYD*oN8VC!&K#<wr~!djq`<z)MTeh}4}%CCOevy7
zWutbD7mpYL*7D`zE?w%fq`+MdN>&j%6!N4YC!u%_tcF223~vLOfQRw{ba2;m$W}A$
zOgn!aefWz%y8r(6<>wo&JeS57xKOf()HGoQa_=p0`(f=h?(UCAlV`tol6|D$d$ZK+
z!3FM(qIi)KU*LAF5QoBTZ2o5Bu5WFulPw_D!WuQ~cN)>k9pH-@!QK$O`X=CsqjTm=
zCRc$@j|ElTCPX8ODow`Z5-^-!&XW<F?kJ^XBpMPQBg2ddV&SMb5t5F`1E7wes`4x7
z3N*&}1#<oqx&DQk3M`_yo13q1E>I1)dC^mUr)j3CK$H3QosafB*i)Q${`k*Le<;z<
z{q!H_uH?^M`Hn~}(TH*ydkcGOu`BhX={@N^1q9RVf%{!|yNqe>Cr{5jKC?uq-|cI{
R?6=(*xxKf8*Byqt{{yZzF*yJL

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_370413.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_370413.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ba4f16c3d919952a7c60424b17593f1b61d4c69e
GIT binary patch
literal 4204
zcma(TZA=^4@x9&k?)nR30vHHYeMyesDg+4mB8L(nT%fr?lqO9RE|s--7qGE0x4UqG
zu2rW>75j1$rq>E{iWG9HbmW56Tve%QRjF0~_76VL1#MF`Qu3qeFW+&Ms{ZP{wbwR@
zQ~IQxoj3Dl-kW*zX67$Wrwze)6#Q&_)r!zFGBF36N49i87LkZV97e;rKOV-$oQlxH
z3`P<T8G207++U<5Cgj*oBQudMPakDO<|gwXFEGrB772wa%gD2@p>yTwqpZl^WQMJx
z^(Gp&QAn~C_OQ=lpX~+NVo2wD&z(R0j=z8m2J9t!gLe=O-_}upi%7*LFGQJG@h{>B
zd49~U*){8&1)-QjbCgIi#nmPzV$J#>uWb&9F{kF#=n0_2DoP~Hdojh}uUW^iT9}9U
z0$M;;DN}RIr55ah9U0B`fY=425B=~Tuvev4S+ZOCbJ|R8A!kmu6qcN%qLiM)P0tt>
zx;3OZA(GHfDG`lQ^{_;<5N{E#<|Z7%%X3(h6RXlHUXprwEkpb^2e%O0Rbow<Xws^*
zT_U~8m|logYglt@Tw$*om>Jq)wL564(Q3D8@@TFSiK<t9p;c?1?KYBKMawGtfBLt~
zO&9zNHxqMx_)i9D6vPo<u&1u%Ox0!1RHwPh-Ks`~YF}L)s(Y1Yo<OTu<xH<)G>d%v
zkW9kchjojn&Q3{VrmT<BnTViF=$5EDF3B&*<AGI-a6PE_u*{LEQ>WChZkv*$W3mwO
z2SuF~WMOhl(k*k69948~G#nMwjzhX7N2b)MZV65j3IiNbr<Li5Zc)^zEa?o{U$;qN
zDI!g(es$JYuj3va_v-kxj)!zSs9P0P4vLarh!oLDozGK83RplU??)yNMW?6WT=tQ0
zG%(>;R6$mCHaa@0_(3iZ4f_onX(15M=?F2v;6=a?|CA~#I!pL|LFWX&p+aXzN*N<M
zH)1jZ216ka#{0VQpR29!N974+N(e};<3eCUP{*T_Ey5UB+^WcdR#l2jwZg15B7mva
z{WDSkoa2v7ht=TJ!Kqn4@ch70qm%wX6kO49tnF}n2XJ(2WX3-s$&*r8Zi6$B8&ckf
zYm1|As*&9}-;!)e<8@m@{PfeRnl!i25`SmYS$F5q-Oi=X<qIp^`tG)jvn_sR(^Zqk
z$+`HzbDLwnIoX`*Pj&vX_tUfY&TiOR<ENjys#6!zIDPC(*WLuZ>8}2{yg0isyX;=>
zU-uk%>}kz-T7N_Rmj9ez_jG35oe4I}qN-h~%OCfo)pY-Ye|a`j)0T0!Jv{no-=FcL
z{hy!u)74DJP{uu!U^m_MAHR{ll-{3l?^zyQx%BJyl^@)TKEjzMP<0}~KCh}?+`q6t
z-LyRO@Zv^QXM)QsPmgD6nlkPtqQaAYW1%6zJ}I}>>iAHepGnT7#+JDi<}+c1%Xr%|
zwQUdI+i-P0c6DW3U4QuAABTT8yzUyv@B>LY`)yRYFS`#_xKg$0W;j;HxhH<+3B%qR
zxG|8poVvJpdEs)p=kA%MGmjfvGL0?kH3uJF`I0%g1^!1ed5ba$37wTCby}Vb<f{qc
zB9f_%3YLX?y2ULb4TZ=<duf=pQN$C?aH-r`BvK~rCs@P(Q-&_c6zVw0pt3cRHnKe~
z%d-$(K^I%He_37Ez|If27^On?%#Bc)Dw*U)$yv(eOrVzOUy9i)MvHumfzOfv9neSc
zF;*>9K8-ajK~Oj7BnR0Rg<R%2iht2k$cyFqbb*g|kf(RxGn!@9_8?#7G1BOZ$Y&pV
zL4slKTRq;$w4!=PB(LB-)aT7TeQ)!S_qun`CzCd3uD-WqO?#g=mlwRvz&CVw2aSBu
zlBbJ7$e~IwI_ZrB70?$L_fazOzs`!%OfVq5=!Qw4G}g#H?SgOXIDlW^o%*RH+?$Ar
zm(993ioqso$Vk0VJ=k29(wTr5oFUa@@a;=I@@^1N$cepixfOmo-xU@jBcgC}t~xSv
zunW?(5LQkClB1p=>pcMe9Y=R+@9tjO4XKJ*xq9EVUVl7O_m<oaJg}{h?|r;ZgY{5U
z#sw%R7Ra7~aoqxGRh>0FARhq<BSY$Ju5kGH;xm;S3AcfOf=ZnkgQ}A|I*HVLa_`O=
zKt*QcUZ4_dl)nRjlWy7_^GA|LZXZhtA9SrT$JgqQuQSIJT`$oOuhk!3XAbA+$CAfV
z?a32q_g&ADXW6~f@P&Qv8q>e_X8$@s``)LZ6V}}5i}%Fed%`>C?MZv;LaJ{Wf6CqC
z9%7PlH~7wY&(n&^c>g8=&+Ko-`<^q-gm~lpCT~r&Cj{dMV4hF%DfeyAuy|$RN?Q2n
z-4bFcTIt!W^!&@kTi9$haya7yhQ|Y7XJL>^L!7l$1@W{~+>Alge1ZW|2BZzh0Axyg
ztk@3Sd``<Y30%xH(7|FeDj@?EqP$!N5;>7K^biYRY}>g^#>%fIAxu`kZdV#|4lP>m
zQ1B*fLq0m+S7lG-5!9VW`0fI;(xg?JNL`WHXwtkUvZu)0XVRKXq`4a&-n1w{t48Ae
zg_i)*YQsyktCFJn1A-#?50y?je2jb&mcY}6<PnvPur^vZaS~X?Qs&AxAhM)DUjj;A
zB6KLE^CHhA_e3~jLwF~HKt2zj@*@Dym+;71G4Dt^eir@Y$G>-d@!faVYObwG6B~Ru
z-t!znoUr^WmpAysFt4pkyVE@%jmOV_;~;V*{(IBZ^3e_cJGtdK%FG7ev~79Tf$H`@
z^)!8DWgTo5u@*L$H5`VuGRb$Q1qZ{>zD`3srt>BylccTFp`fZ;1JOxEm99_8`TTLI
z=qJNA-JW;JSTro&N5(d0nu|om>9BNC{ywN95vj}q$kG_&XUOqa<op|IgkFZ?Z#CR#
z$Wr_8DL8gT<@~kewXBoOD)O_hT`=3C5#`9O8p0mzOuRXNAbB8*08Jmc+qKkXpet|x
c>fHTvTZH;`H*Uo2SKS!7YHtT`*o~w87sK~y!~g&Q

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_424820.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_424820.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..97e7e92508bc33ff6cef4fa2905a0e69904d9f22
GIT binary patch
literal 4081
zcmcImUu;v?89(RxUi<pL9Y{h-CLGkJaSDWl@UMy>4uL=@L2Qhbw8*;gy-A$-+UDLH
zH)PkUshDa*rP%$Wm<@@5DiIo_(P`4yUZz!(Hfb+*6LrxolP0w<ytz#$O?%pRu6-RR
zbIa3?<m2yr-}(ODbAI3Xo6~7SFlOSPOx|M=`id-!!BmL#&wyA!JmPT#jh6rMDAw1M
zXd0z467ZC6$51W*^OQhOIX3giiZ|8gkJCJTgI=yEj9Pd`KvSMN`sVt4(6`*6N3A@2
z1C81!B-pC9?ANg0`iz(w(JTY6oj-9lc+Mb3LiQRTR-jGrTaQvCYXuv!DOhhEJYKHI
zlXlgvTIZl<H5&BR{g69Wt;-clb0AJSREKJs22RphqiOzMP1QPql`4A*zSh?9h%ziE
zT}m}4@JOq+Ws(z&L3HII_;Rc68gKREv>Dd)I6bOIrS&+yssp|~`US<KajFGustn0n
z^$;%MSGZ=v)pZ+ceAPJ*DpDKBKGnI!u6MJ=IjA*ndPEz!B)36K7UCtj{W%`6x?T6+
z-K5{Bx@z=Xq&}O6x=n4|5(9YSnMdYoZJglU_1-d#;5)K<EKM~w>zrPdQk(QxT&nYt
z#mEJtYsk-zNaSevvBvPqwYV^0MB}G4TIA$ujfp9fg7l0WI@m>XvtikfB@0<vHA;zS
zwzw3VkT@|I<~1`XanT7uW99@YCTo`QNQ_es^k__(O~aDcO!ADVF|rbq1b?%J0~#LC
z@Cgl{)9{F9l@%$>3qelYAfr`sY=aDm5;<TJIY}B55A#7$qa;x?lc<3<aiNfgr-2u(
z@S+;SL6EZ=<}_xkOpR$wh){AfnDNyg|GC`tR!o|f<6KDSn&d*$oH7}U?&T(gsL~}%
zp)N%b<6W@o5;+KdHkc4XkX%rli74UtzWB8u$bukIV$onI2FdmI^d9Ni4-(BPCW6y~
z6cr*;CqzKX3gty8g}yT*r+fZf=3KsQ#nGBNxn^}`n=`xa^xQpq`{?3@CCkdr{YC5k
z)WDk4oo&lpN}YOYbIf;SI<iCAqaP1E7``{WYU@g!_}bZ!?ap%f<}aLWX}soieb}(j
zl55F#=O<RY?L}vMnp*R2%W}D<w0X_b@P2oe&mPX%^WmcB<)z(A7k|^e^s|SrJh2u#
z14U0D%{+Cu=7%yv*+8Djomsr}NnlA?8oC#JoOr^27I-r8>D$GZPW@F{b^I8dc^a~p
zbFQsArylQKbsPjSYkyCgPh=7hU0Z(eep`O%c4scS)V=E7TV(fUOeHsR?JhMy9kMN%
zk<`hjwE5lB*H5P}WE(S=^QOi2FKGWdR18Vm$<zo_s1`EeqLhL4x4?auSwJe9s(>d*
zs>6V69#40GnQbcm!Ce&DC0m987!1vKFj%hjT(SKo@NP0m3N9e7C+BGbW>tI4CVO=t
z60FqWR`t!B^y>h+Qibq(&9g>Y2QtU01d{eZ1pf!SGBu3e!3t@F`k1N%j2UK}RJo3K
z;MS?i2GAu<Y0!lh%_eEZYxq$0+CwA2swu<37eZ6p4B5s%PaEy_d*oDAj-R7%`e8Y5
z<*kow%l5Kwj8xN4kl#M?j2tV8RA%l+0iQS{E50$o*E8tjqP%aQ%IF@{aeQviU|1BQ
zayS<CiD4P=C^QNCmA3=|7&<!Xie-eF>o^mQ&nP|xG-8rmH3rIn`97Hw1s^XY!Xd#=
zNu=<axx5V3-XdsEh*WO<2uvU0=RIID@D+JX&b`sl#xZ0{jp%R=ZO2?jN{tTj;e_6X
z1cj3bKFg#QzLeyLKaK5+aN-!x9h=)OCieA3Vj(Uf9|NMyeUa=ZO8-uwJ56_Y-rfnA
zNiSV~=w4|#Qrz*X^a{wH^}__YRU3)lrkVIK=}wbeT#)vGxSTixfF7ExG_>wRk{cu%
z1GukT(}7zvm;09Ayn#j14x-*fcG45j)XF)KI_iC<znljpCZs;#wZczsgu+6=Yj(%{
z!OX#1hqK(xzI@>B$=fG?HMDs3m#-D*GlkAGD=^zT$fm=Y!`BB>fz(x4WbuL}XUXH7
z?dI_UJzQuVUZIE6$H}%MnIqY&3$wY|&+WSk^w~n&*%g@WyDBC=oLNZbk{=5X#Cu|)
zskdnFed7IN^Y5Gg{L{Z&`O}rvi<kd?kt<&03WH<CqhkentY9Densv_GGxqF-?BF7P
zV7X^`jDN>|%C53UQ-Lq-ucii{(#|x0{rnnhO?RictT!6~a-PkwS??`STX;S9dY=2>
zjT&Yx>1lx8@h_)^F_%2Z;Y^*@KUWA!R2`&MlJB<O05yBwp__mscOSz{>9a|nX_)ES
zmsPU%C0z&3%T_jNV1*oieGn)yj&zc$d6CtDEZ)Mix*d`Mj7^^F?Jw`H#FYF#uO@&o
z6K}mk!G*Go_)V49T<Lg)K>Zbh?XL<w25-AT?AQ>t8a$st?A{Q*Xz<z%qN5*f?F`Ss
z1Cd;vXFf8K2Ps@*yCTR+FvQ71u%~u$z)wquVGG=Q9ftJFpg$P-D2S?^U2|7nP?8|S
z!wQUSVH}W27a&)we6cLLL%3Z-z&->&`R6df!-_>#*SsU+ct3Xk?LW9bKl4VR@y&uT
zy~;*X0dlU1D7bWKmF<Of(~i71ANXK0b^bdC(Iba`AWtnGT4g)S+smB9D%-wkd&z-z
zy!_AR_HV3ahq;8zj9EX!euti|v>#$IGT0Y^NAnE4CpFffB+>^o(^Oc|tf5#`R)pEO
zR6&}H8+Foi)9jU!OvEDmL!`SgFj9>1GZEpKbRNtR(3U4*Dw#0GUm?er$oUV{S~4Sw
zefNdyFO(=R?p$kbSx|Fo$wcUV`+psI82Oga>n21w^c|%RFLtJ1n%|SzQ$j%I58my&
Z-M3E2Z+ly@`I~->+)cN_*X?>F{{_-aN}vD$

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_554113.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_554113.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b967d602ed449877b4b04548baff0655b5c2ce84
GIT binary patch
literal 3711
zcmai0>rWfm6~8kc&x~Jyd2fO??y3Qt4WW6^JVX;rc%(@nN?B2brWy@1gR$|0%nVMT
zW7Vlr#m=sTX}gO_BjKzng)B&={nB<-seeGf;DWYjmP#uvU-HenY^AE7dhXa`4DmKs
z_MLOjIrlv7J@<F--(4;{f)@GfCzEGbgucWBv(ZIjPX}TViAW?uXsqxh#t36fhAm?h
zfg~bm*fFOTz9K16LFYjp9*LI9{0T~=9#N~s31f_Cl~Ayz!hHH$_)KN~1TC_Us4<&p
zdxXa9B$DhUAC6hVYk!4Z4C_qq&0AM*a3x|$V9I>kfVRMYZ=J-ep%SJn2;;*|Bvy;^
zIHNI|b<T>)XHbXrVND3lx>~d}2jVze=Ap7aZR*EuWxD3BmATNYenKscgRsws+ZtK2
zWmg@h6k?(@dKG64tq=Y5HxQRYb7(drLZ{}`s40j!?$VIPLOq~gk|LTQ-vVuo!Z~9-
z&50#gR*)ETt6tN$U`v|okS?rZyt*vA3e}`lY1N`-jWXkm*Jy<1G`zUqFw+hG%4gPU
z_OcmOIO~H=tI=u?MF?4n*0s`J%()<9`v)IUNFz1Yh@wtoH6y!teVO$Nb*<HD_F&yX
zk9ee!!TQ&^!N%8lX4Pr+YmB)b1e!%&c38&6<t22hsLoDHesivu)TuD9OzGCBIw{Go
zaM^+u#XkrrUP8tv!0XgWHKg08<)~lg!(2erX<p_deo42^Npe)tnTb%8SI?f&tpzp(
zLs7RVGhyATs8Lx015usAj&-{flEP9%<<wbkgHHH#qE{!b>cp^449U3EWL)jKbvht&
z5uJ`sOem#qShw(kpfh1kQF&R_?S?eW2{W=z<1DyvaRy%;^E$(G<DsZ9RTPZt^f(ve
zLrQTh6cq)f0o-~jwg2AfydRaPlxbd&IwyHyidQG2kq+JuS#&D0(5Xt{=}s7RhIv&E
zJm6xI07-M<nUEToJ~chdfs6x*8jWy5RFt@`u5+hPp9P6-3&*%ANsdS%`Cagjms`04
zdyqi8&Z_yL)KKO-o6eR*|F)|({o@q(OkSQ{nq6_P3~nAfmvfy<4D7h7=kKKMr0-?g
zHeK%|26pYv`Sw(MdN6(QcfBvJKfk_Z?@V0Xt!vJ>Grr9I&+6Ke%yvUdCYEbBp0sbf
zk7oFVx0Cd?yEZ-g)R$2+g9}{tUap}%=WbuQv@U+?TleSQy_|Dj2Bq5Or|wK&rfH!w
z>&w+1Uuj&Y{>ZO0FOTKi7n1Z&ZT(`~LR+Ra8(SaQs=Ww~!0H$_zvHf3Y+7i_G-fB(
zuWn)GZPxLDJReKN(*7)+RX@3%z5l#A*VwtvZ&hE&u@_R7yc^ZG=j%~bb-FP%mKfM}
z)unk%>`?UMYY(p_N7EyVqYI-M-}1oHz&~3$axER34X4&eKcl+$U>%X%gu7<wbXu0w
z895>p0TxS93DB>>dOv0sk%oe}`VTepst}2(b}(0`5&u_<#99h-9WFU@<}V1aT<*E(
z;V$r=FmVzrR*;I60i*l&to!y<0G&b$R)G5yGl4x;fO+6nxTXQTiVz>Sh)kS<zcmRq
z;L>E{v<iS$Xc}!qgaBSGDF)z;(yVK?)#4>dAk8v@y!PQ&I2jqQ?%Xk-Cp@F5o^i=@
zrlZfpM?_C=iF3N6&%mU)uD$>Of)a>EJmG)>XGoa5Wa>@wG0CF@<|NOM=RV+*<neg|
zif8!2ke8Hk?m8_>v49}G>Vbh!zJGX)FqrOLfbK)$O;>gb)=VUDhUQf`K|ns_umMT{
zlXT$(>y#h{Vi-1u`rq@(M__`2Gxj9p6Y$a5?hqdy7x~L`_2Jm5Zh#&Do6A5HxUE<p
z7v_Hw=vm|P(WRr=+bh({otM>{Z(YbWUy@IP400<Wp_kDuVgLi_BoFXu1!NH>bt^!Q
zI%}+e{5_aqpof>;FM0VW=HhhrP3e?h4v2-2adi~IuBQ+<8IH-_z<nG3$})5i;kLs$
z-<9fm|9qN%(hUc#f2sesgV}peZ*EXGHcs5wgx=APmCmQmKkQ5R68DOO^y$>4jQh!z
z4QgbgWn_~YNnY7uUGt8VBYivFmnB{>&zW`NPwXGqE%su<_eE7rVsIOGpF1uk`gSQ-
zQha!8o3$lRCwb$uUDE`=f7`59I$wpHuEaHCr38qx)Nm!@b=#|jI(XB5`(d{~CZH#c
z-eU9=^i=tE9xs2kRXC*uD+gu}`==A0MTA*RakA|4uW)KbMq~{;I0I-0JXg{$XcuFO
zf16heoKuTvdqx^((`)e;tmm&33Di?0*q)NG#^lwTMDxC|#pHQR;+=ircTHZaNwoLC
zfte9`cuU|qedWO&e*3@)a;TD`assbN+?n#hSuZ7D1Qj@PfD2LCC`;pQAx1#759`&%
zOI4N>xNE`4A;wt+za?;)7fPHl973HB0vp4E@-yfX=o=Q<s^*<3=dYq4|NPVHfBf(#
z8x40iq^T`7l<@6B-C_~9GP=c{gK?vAm;QP(aqAl=o`;LNH$!H>zr~&?s24b~Ew=T5
zdfthe+rDUO{mMo=={%yXbm6o+jcnz!5Q~|?sSv!cX5fjTvnC}wu-p<1sJcyvMif<g
zFfAMBUZ>yNUne6s-BDZ;e>5b%M1~s^p2AUaCL~>!Z-F_Cm&!fp@)m+1zC_N?k?UWm
zB~K%geSGBMkvv&P{2)92BJ@0zM?n7hM}NEfm%CqMa?gTDry<XubQ7-R@%fXflX(PW
mrfa!-soNk|`hS1(<;^|J{rX%BL4Valpz6l=0}mZWNdE(|QWS6i

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_554981.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_554981.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ef861e840fc1e182d8354e5a399e437ad4098079
GIT binary patch
literal 4097
zcmb^zS!^4}b@t$Ld5K)>vTPTn9oG^aS@I$I5Clt<PpOt%BY_erF4#49c}P6u-4$)A
zON1_5n6v|kPEd#f3|KJ=RE`BipKef~DNvwA`y)nbENooBK>XuBCQ5;#UwyOWl9WTo
zK+yqq=FL0i9Xs>h`@6$oMKFH$i%&vU3qoJxjWL)Ku&Dtsj|3zT5j0+0iE%>TlTm7%
zCXh%>=;s)s#Z@3hdcwXHhj#*18y}zr`X>FTBrt9kOd^_a)sSaifj8I22N;39Nsn6u
z%S|+HC6Q<?>#)rb9_tINVnj0!T)24Zr@mnW81dVxbVGCy1>a^n%=1Vg4B7-~K$TS>
z9+l`xn`%=nvnEt6L032pNFY?pqtZ#UfK1w}G}Pv|8vIE|6|eEvjDulSEkQyl?<d$Y
zSO%8K@>z9C*=w+gR;`b)*Dy|_pZ^2wa;i?%p<C!uk!puqfPPI1C_uIVk7~l6sxFMh
z_!5@ESS+K<aVnv@RI`CgZu{OT)FedWd#BJCI}345)>rvk<9?}}S}#z`v|;&#6WhOa
z{BS(Vf3M*+nzn%_x?TS#eT`~emBt!(Uu{quw?-GoQ7|nt#vhz@K!oZ(ctRtURP8ET
zj&l?2^vG_B-?puB!8^4{t^40&rq(Z;jmQ&d26@;K314gvp_v3_W=aei8a<>&M|pWt
zGsTsVD80Z>2DoVcdRX=lk{NHU8mUAy>y#7^N_^B87Bq&J_*hWXOtYdCmo;-B66cj8
zhc#0XO~Y0Ip}0oL(^1VND{)EmG;1cWZ%UCg(?D@Kr7y&=MvQ0{S&_nm=;NamFjfYy
zR6u`J!jD11?@=>Ng#}+!W8#5;TwY@u#ryr5Syp&S@qwg&T9U*V1{of!lr`pxzUuB_
zWP*?A$l~hPiE=Y&aMvFH8SA_jmnP*Y-Y<5Bc>g4?gyOLSd=S)h%96iR5u;O`u<MNS
z;Ma9uLi9rne9`HM5}xXqn(+b62NWe9^ZDc8cXxN!iQ|WWqFJH|-=rwT#E7&XEWm$2
zo`m0$Lf<tYhjVT?Go0JKX5W=M^USd=`%cDpPr5&|Ftfxhom=~HSKiT;I{OsZ#xi5s
ztGU)S$DY*L=T`e%Tc$00E_>p)1HT*kcxc_)nL72netV9~d2`pktZz-5HyU>40{Mo$
zY0C!Jl-u`!TRgqkywJHcnBUR;*z)<_zY(9e=8q5kbu52;G{0js&%KjoFlWo+SiYqr
z&vn4o)%4-j+}`Z9yUxYkdDk0DmX*Dq5i70vww}kA@@*&c&b~DLoU5O2zT2E@S`=2^
zSm%yD;ZEea6MxwA$Nj(Gzs8+OGf&G5;g#JVM;{+q=lY&-19@)X&xilg^QWFQZY0e-
zV{IQubBRnM8^|RVg-^VT!G-tpO&u$j)}6=l?6C}0s7DQLg(g&2pB>GG^Np=}M{DZr
zhK<X5Gd-!(Pif}X`5WicquICSNAHf_8@NBTFtpa#x+Hu_AK8SMBaQHC#DK;~qB1ST
z{H3~pDF|M7u@0@nf4OCzM=F}Y59g&}R5*c{Y=fU@9zp_X;C@A@#1G0)Wtnm{1{qYV
z(p?7IZkv-NoLFsT$r{0=R|T?s9#gSFfxJ~56E$j9#tiyuR4TyM=rk%BCrJrxl7`Qe
zHU|i(_-v9<aLn|fGP*qoDi8%4NI0!VZ4gXG{(l9XD$|MA$WyPO)2eCN`lwWK38YeQ
zA&+h31rFtGqt_jsmKFCE(S7*9X?NSO`?`C?BjHA5mK!M34q+PLb(uFy_z<5E-7+5)
z-4QVsR6=fEc8|D)a8!)R;dsm)54gRMei=bbg#Ds~f4~bjO#bStgnv*ye4EE%`VH~A
zrY8eeL?Cd0jZzdKz#Vc#PnuX;G3jWuUkE2~@*h6)wpZE?0x~w<osvATXl!qUk6sb@
zld}!cL`QEV?uQI{5`ZH1Fy_bk@!u(Quj&5Ig`JC+mguFiht9Q@<N579(wji@kd;jB
zVKoXohf)yYr=V^?GW3Tu6J$wcMmhw{y8C*<)0ko@@UT)lCLF*M_DCa6RSwkXAk>SZ
z;rNP{@^pXEd@`Dl`Tz^h4#{7@1a@xN>~r0j?mNe_{O#UV`rvBI!8Q6|y7wh~`)W)3
z8r@#RAIluOaXRHqUByhW$sWq|<ha{?tMuUNuE8~WFx~f@b<Ei^wyZbD-w!Q>miSMD
z4}<IM(UkXDohx;215aPsAmcoz9ckgl#SPYyK9uJ51*SPR!)CcVw(O<(ckjNN<3D<@
z3Rw-hnire@<uIF=f(zLlsq=b>{oq=8;7Wl@<K{NFK(D(fLAWLl2$)HIru3PHnXc|*
zlGPn^joeZ^Ws3w+$tlpA62>)5l2tubja(y`1y(-?djMmL=34wk?vhQ(S81gnzfgkZ
z9tn@YI^v;9eNUmU1fc#B!1kAkE(6zK0NX3XT?Wo=0DCILy#{Wd0krkQOPdyWXr=U9
zjvvko+)~2Rvnisi`24&q`VLobj(BLP2Uy^(LZ*mI`c2kbD<KA?@}tn4r3OM0W#}v5
zke3igWZWd-mr;BbW?dmXjX^-4flvM=Owd=b$Wk|F&)7eVKY0H$=NE(Ttu|g>6(`r(
zNXm=vHzxU(M%URc*f;52!$+ai#qaD`4qyI(9JzROo!wt#FJcnw?7l7R1v}c_`mA~1
zHx|au6cA%#ifO{Gdn<K;Ertgj5oj-`p`FrL1Cnrp)~JcF0u5a}CM)9gDXEk&-mb(+
z_f4~vLK2Kegoj91W8}4HT$qlCC#6ep98R?Ib(jhiK@eXf`&Y>EPqeGRAd<bc<Hn8x
z`6HqW%&v3IUCvxCIPk8nwENZxyG;s__99n5(LgxTKbdRKv=<P7x$gVD3%xqHbmr3w
a4=-$D?6*C;2<Dr90y&%Rgm2h%%l-=$k5XO$

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_561330.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_561330.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4620983daa135a15467e9ae1202a417fb6dfe6ca
GIT binary patch
literal 3936
zcmb_eZ)_9E6`xtJ*XzHDO%f+SuLNBKZh-^>gq$Lp1h@lA0y!w*a;dD1cjGwz7j`!;
zq-)iwsIZTd;@qjiX_1mURcbhpF73CXO6~Xi5+Bi#PN@`$e91T8<yuw!)HiFd<Kzr{
z=}0^K=Dj!b=Dm6EH}i$lX+zMSxIP;j<Pmy72S(#c#3ljaJ`$0LBWS4j$3s{jGf~qJ
zi;;xK^>vJ?#lOf%?6_k)kB&rBb^a(TvUk`=r3ph8(JZ0y+A8z8m+&ps`J<f3-(iQW
zqV*0MvN1@qm2KE>W1nq<n&>B%-b<Iy{KVg95d8srg>5U)Cipi0&CqD5*pQ9GcxMyw
zqmn#n*X){g%8V*!usii3CRnpRDy=jH;-sU(LUnzcp`UbC=o+V1VM4P8v05IF!#VG4
zkD2mXF1746?1|NEkEqws&Z3_^gMHO#HJVf3VXfwX96-NjL^R4Yfre%Zg9lnI<x+l$
z%Tn$X#3Sj}YBhb7^l0civ&}S0-<i!(F14rI+@)by!(#A~brqgh$uw=3<`zwlS;L3%
z8tTdR_Ug!#&$0eBmg+Rm|H)E==Blt&CI7X0tzmnNX*@*pW6n6mDJMkR_2J)Hh;s2%
zl3tAgnlDGLvBHLDdqn6+Yt&qt_p!x@97ea1kMEahiuy1yi|XwODQL{|F@%i@N|>1A
z>X;;N(Bua#R=5>Xd|0;7p^Y$VgxDtJcu*Fi{*XvGK^9^`iI}G(Ij#`PXe2JE?Z=3@
z$Yx<E!lXDcDU(rRR@AsG`I-psA-I>|GX(b$+)u2EDu+bLFGRP<7~xCYkunvKX(G$C
zmWX*GB>JO-k?9vBCLs_YI80bM<_{B&dg2#K{}I@xe?pZN!i^OF7QsIfi3h^OGEyRn
zGXjJQ=o$(whJ7z<|9!9Z=W#i#Ob7v~bxa6^1$8VQJ1hjHnA)nyfmT(DPPD?PH7bB-
zxBLky0G|7!lMyvEab)7QA7p-zsPULT5C_jsoIKjz-Ubq4jVAnINsdVo`7rE(#$6eP
z!$_fZhij%U)0b<0>e!n)w`O%^y_xSnI5yuo*SRpTXnDG)EpKg0^**=SXPPoi*`wLu
zQ|lY4-gTQ}=3wSv_ML3!?|c7n@so=yw${{{b*Be3gq-&)XLA~_*3@Q?WfEz2)l>J;
zK#t80&i-ft&$cdzi^u=uUhMcJx+LUVI`ZyQX>QeBpTo0_X>QH!$&UQiojaTJ&W0B*
z<Qonzu}jyU99<gxqw{apd>e2s<lPtP3{Uo2?)<Dj?|w7Qt$XV3ADBImYgtGvU0v~X
zKJ#?tJzal!_pd{L9(w9IpSC=Iox&P#|4^PuWD?onf@P8YOjxw!_qF94+Lmsv)O6<g
z&Wx$xMXvpY-N;p&ZO&Xzy}jymWj)!k+3)3@Z=~LS&T@CpPoGa;&tA<XzG7Q8A;^ee
zfnZ1#SyCtESfB*tRDz%six<Z#9K>DAeWamrS|2-_aV3d3d=O5Jxrly+HT+6Vra}{q
zmteYbS&=c|3s$NoHyQG6D^<B}hQXr`EJ;SCDW$h+*GR?!zEyb$0JjP_Z^3fXB$|^f
zeCD)e6pP#)KFO(NsMa|BazOz7Ca}Q3YHni}TYs_a%S+^yv3T`-(`(jeH8TKX>6*lF
z?OmnNxIqtHrq6^TNHQ|LiU}u5iBLe==!QX{^4tNk(JuHlPeJz^{JJMa25az0pph^@
zeiVaUreB9O0AQ{N34{%Zp#%lwzH`@l<VKjF(4Fl|$%o)a_^yZ$9TA1oQ+3hAkuCr-
zA)=fHqR6GNp?IPDPYOL~nBOzE2jGESeD7h+)237T#<%1nAoDR>Sn9J9lNgE;RtZf3
zlq+Mx1pEN70%ODsNT%M_;~*c0c{(T&t_aOOUT&qlHri3YWNLP6VZsIh*NYC&Crb%W
zyNhlx(S+O!-2Lz=UqA=@U9~%APGnBp>&OZpbS<;qbXRrG$;`=Y^S#a-p6BMc+|A!v
zzqB_mv(3x)<~3NMBhxW`Hr125`J8vo*faKQPi|m-aBgsM;PV>~Z>;bqQ$1_0+SEI%
zw0mKHD|L3Ab*9DX%d5OKeKalTKj>!o44-x1vu6kH-<Z9T6Fz>wf>}w{dRJ?`|El55
zT%is*oT>AAj050PxzVbl^}FeT40>Ir1R+m8#n3Z)Z_;}fdZ@6iCqlCFK}r*3M=P$f
zZ3b3p&gu=GZ`jB~K!tK%k5_qqiWZUA*C`>;Hp|uYi`u0<C0}OM1V~^Ktq&Ne0$ab&
z6fEwn@Z%DJx=RG#T^80FygGwu+!F3Jc>4@u|CaDggV$mZ2fLxvCPe|>H#E05_R)^M
z)}Z$6s-&p?fS^eJW0iw;A1j{*6)09Iro?4Eh4uH27z0r~h~x$;uPNQ{vZTPZ4~y(z
zv?~;(X-O2z!J-?4n&<;ItqbKB(529~JhHlG92v()@lSvGq~^;D?=RO6FH7MSK9cHL
zhXki0|Kjx({y2;q8guSk&&Ok_%ilWaJevKzIcDMH3jf2RdXbY@;aj$;7aXYZz?!$^
zYb)pA3WzgvMVxTx-pU=Y7sG=i5qR@W!fS`{1|?G{C8qI^O00o+Oi`s<6LJYFu5HCh
z_l?*~AqmDK;zOjHF@P-^7bhdqY5AwH9L-4O7IXy@#`pzt`~x}viS`ya#PD}_Pwy@;
zUVLEr%Dd054Ck*57Z4o<L(hUrKB#;{N1G<ZICQPTaW8hJe=u_>bBO9Wb0_Az=DKup
f@!aQ^9$wm{+;6(^Ud(;njZsa*z0kB>-`W2FR`x8!

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_686366.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_686366.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e54e63b42a6a61b8d8446e96cb70bf3c20c62bdf
GIT binary patch
literal 4136
zcmbUjZEO?S@$GuOUfXM&O@d<}g@CRhJ^>*F0z_#@LIU9e$z6}akzQqOyqm<1Kf>-N
zM{;YOsi?5wq&U4+*<6tlPL<AFkPfO!hgwyt`m0j^#FyyK+ENLL`@_F*p;FafowxQn
zPR@YTC++OKdGlu8%$qke|8Th+2*$@BeKDH0BlHwc%wa1a>yH7MLjn?rFdEGNi9y1c
zlM%}xMIey~8FI|6`M*GlREXV7!!yBBo<2+o)D3E>uwl?9I0UPRLKS5s&@Z9e%F~Bw
zfw^HFv<vndXwX3-(NWamoFaVAXIMqQZtFTfaJtWb!9@B4&Jx|=A7p`Vy$#?TQV4S`
zM4H&fUm%tW>v5;*RPEDNRJw!O;50FTQ0+?vNz*`#vn3kJ^E*ubxJxBfR%NgjWA8SY
zS;jzG++8AtHg#?MRr?5`6sIAkh!&CiWKm0nic}Wv9sP<F&@j0JcvLIask$%~(+gDE
zJc)4{PAU2ktfW-O680mEZuE;k!x<~pO4Vg>R;g7gWt_WO<$zk06W?B9N12#Xx2x_g
zC#&9krfIkj!E&E6b;ms_0orWlN#ixI(NLpSm+lX_^EQ;iS9`J;5ni>TL|2*kRz3f}
zbk)1XZnz)8dY?9LaoPnQulV>cRB1d`mRga=)op4;xl^cQsQQQ8A<qwKroF2BzRmPH
zfu@j;>6dVz`v~1CC{yF&h`HBC>Qsc6$8>8<85N~x_z3|Q#a|1`K0?A7$;axX64o8#
zQfx%xBmSVE)4aq-M?~E^ElM$2w+)A5ywZF`x8}(dOa<5!(=GBuM7PRHOcHepE7l!i
zSd55K#ji~HcIZT>PIT$SX`Q&B6aBhfR-~XH`uWHP8r7Ksb*P91Bpl8Xextf|JSg}h
zIvpDxmW%(WP6zzsiX`hawhrjlfS(TpbO-Mr3XkQNY_h^jiXZb%ND}@VyzuAq3<R&!
zLj`n5#*eS=W#hkB8b63hWAZp35F1DNz!<NL#-a!L5iqq;mI9567#VMbS!09;8?X5%
z#Q=E4ADIX%!SO@mQ+`<U!-^7%`U5fWLCcAj=9U&%(e05*|ClI6#jw-}XTWzNPr^kd
z&<h&5+%p$a7qq=AY;B?^=c-I!PWkUh3sdt`87^~nWzW&9>uBQ4V_>_Ix{|)C?O$>2
zOPpDw(KdJ5qcvo?eOXM%xvJ89Y7jWtZ8N>8-t<WN%I}9h58Vx|vQ3E|;IFJo4}bd3
zBBfoPjb-dvPt$`lkB<J0dvyHaz+Z#eqXSvbK$d$u@z!@$UX9Z_wGY0j+Ml#N;k;T)
zmfM@8b6kzKcXlU6c4;FZVRuuOYf92s;n~#L^qIx_FSty1rsi(rhUDzN(|<p`%D$Z>
zo^X}vOWJ65dwrIxFWu$I$g6Dgw`@z6ZTX}0)%3&Z6}Br$<QUg)D(5`29*tO_=BYbB
zT^O7nT=6z!nlcyv(3H7+uQlsE_Na4}YtJ(6DeGDls&07UK~~$%-s`=|OX;7@y*K-w
z#xD%d4}ZJ6F}u5QW&7a=liyJ7>)?JQ)nMSo0Eb1OkX->q2wr=>YJClNbkjbER20I`
zYRfR|p+Jl^fS4+kcqJE!xn$d0kWtN@za&6%nM(LR&~Dk|7LZtGRiKP2VkyeAmdGO$
z2NcL&`4K8py;642S*B(IwM;((Ik4cFI0+osGh2p0nK>&?y@Z1-a#+ElSIeLwSH7CV
zmb4EOg6#$qXOv<+Q5nN02<j6F7FwWUT2)%L35;OB?^r6-QUa;uyU6G4e}>&E;qGL5
zPiI|ZLRRXA#JVE~yX*L<P}fzYG#%_V((d%GbJ3_M)d@k!d~z@rmGdl+3Id}(Qo?@L
zX+fL}2E;&VsNk!pf^Yo<fZr0YYk^V_5CVZsF-y-d0S6}gjdTgAp3Wy2oeBuSNu2sG
z^jz$ecESc3n^c#O4#7`n+QNKfNZ{M2t0R+#+QP8_AC}tz$x{zwe*6IblR$So3%llb
zExwbXGFR@oS9YApdRryT@T>!aIsjl`F<bi>-2z^Kk}%3cF|a}k42<el$c@UB;RdN0
zcIb3I;~VMD=h*Vtq+P%w)nf1?40dC%2Y^nEK=sI*gM+b{t2^>$k&#KM6X<WiC$9j2
z^XHuG%(2w5+sD)Vtv0Q5p=ZA5cV`!`etLeH>RW!ZZv~*U0W%#>9lze4=uBKKOwvuM
zR*k!LYMDB@TzhhbI+;9`voVRO$1FF~m+I4qMeg&OyEPBEue=Yvt86P|unKODnPoKY
z6KCRFZqvkFF>@_-O(Sl9nCQ)wPM$hj6Wxy~S5mk>kYnu0rX-){(w#YmOP|z6Gfb|c
zQtSG+jk3~f4#c_=y@u}tU|VtEa)JH7UI~%)x(FJ9`1y<gNE*;$KnfsL+R(&H8<{dG
zCNE{v4q_v%Kub%Q@fjye+Ojg~M!-)Hw^G;w7@IVg<Ii&!&J=%{Rtq%m7Quc8KW9h3
z&r)cI)=m`=)KNf~j^bj4Nvk#y@5W-SNvkuFeH)8!n6!EmY3P6_I3e)RVc~d}S^+%6
zT`9atry|OVKfueP|48Yi*+)q~0Ty_~kVImV5z0o#B}8GVSdesgp^K128JY_avW3tr
z<Gu+$j{LK*84BTT^a1%4eDa3?pt)d>ecKG1Vt*a`?4v)qzdrZ#<?Zh;i({)yIMMkX
z<1&`~nM<q8QJ8y-s{hGoV&Daf_c>F}beBdhwyZL5=GpU<$yKI)6Z;yAy!)Tj)IYb=
zEWL(kD{aKEkLdTYhQZP?IF4z=p)fR_6VO)ajEPA&J?oZGP|@uH$gPTaZCo-^hfZJI
zaFt=6?ksp^Bo-F#Aw!dy^CB@}A}qE`?}9j-gk>4PnuQ>Ur-=P0a{UX{LK{RfH+Np&
zxkm0FPUUKL%&D{Lng!#B4u2WG7ycgO>lQ?^2FLRgm4qw#<Cz1g18WFS?bt%we4Bx0
ddcHh=@BBKZe&13{(9b&v<o4VSUUwRY`X6wHUHkw5

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_80693.cpython-312.pyc b/src/temp/gen/__pycache__/matrix_vector_multip.py_gen_triton_code_80693.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..997b0c93f6421a2278978630902d51986962a50c
GIT binary patch
literal 4032
zcmahLTTC0-_1>BBc>DtF0EPr9PP9vKlt2;)NxE!;fxH9JYE!n$Ze<OgG1&OQ&J1jz
z<JPHC1t%+EwyJPeslu)*E!jj`wm*&fRrRY<e{ex5ou<-C$q#?tWh+(v>bc_?+YqN*
z*>}$So^$TG=ia}%Ty_NGi1O9A$A-`gf|!FffGrJxMI;~r$IwXei$}1IQ*nBP!AQhW
z-HxeR{0fxFM4j7d1QY1$^e`hZx0%O=!iZI{h$vcDMW1~Q-CCU<W(DpxGh!2Lx6z25
zLZZF2hGPc%?VDtYA<f!%?Rx*!U<nuuIV#qM>>wKcTYsTQHWX~~qJZxl0)A}pQx4Uk
z+GZ`NQiItk4>`fA?Xh8L7T76g#R}$5RH&)8F|3sEC|3eYz!S=}mvU9us=l_pBwM4D
zq6VL6)&7`74PyZP^ta$wty-(r=pNRoPN)I&D@s6Nsu?6yW&$Em>j;(54Ju8jvyhLJ
zTSc$vSV(S&y;t;DlaumP_+O=-RFCQw=qHTnX=;yJr|PSw>QxM|wPdMb7fTIl{WeRD
zYGv+fNFKHib&uM(JzlbwV0prt8J%@O<gQO1GDxLVr^=Ol@dBo2EY(!uRh4>Iy{ap^
zXZyMYQ>keEtJG-Yt2DD3)uty_GfNoFAU`)Gk)rcs%_1l>lj4}E>!&m(&dU>;C8>;y
z(k3ZqkYf0o5!sI=D?yzarNlJ*q?8<!_;@fPXe=-Bi7`>L%!*P{)~w-Jl2<xUXqF<G
z0aVavc`B}1WF;wyU?8b6WMR!N#>BXoP=d;gzgfcp4fkodU&DhM9@1>GB1Hr-$j8fI
zLgNhTXbB2Qq*x_V<C<kMA_U_an+%6#_|kkRq&akCG&su3qJ}37CVWY#!GM9omk%nD
zm}t=Z40@kt84XU0Ap?c4t`?F>@%vsk{`-@TkCW1bJjsW|j&VLT!7Jm*#8G|>g6)u{
zP=_MMCp!S^i1QHTO|k;yCK#WJDUr$c$(bPVg1}LdiC`!RSvY;H`%EV=G+TT+I3Y?2
zF(!3@3uIH|AHz<i(GM(g)y@xQ26G42oGt0|8!k`wy-e_d^l;|>%(8p=;@bYMysImH
z;icU<-<E01Ud*2PUEh~iKEJYV?@0GQ_tY=?7yP+E?&CGjq4d?4png2d=e*Bc2j=jG
z+mroZVgDSv;c5EJog2t`7dn;#dC!~6tt<7v|7gYgsN-oMfB5aZ`z*+S@bG7WoRYh^
z5L}wcHyq2mkF9h+edEvg>7j4V{ptOD=TP1~G{-)7?^*ONcyo<Q;g$Y%_i3W)%^g_S
zYuLz*=Nnq{?pBbj^DJ5ytT}dRc%^f_?$n%RgL8Z$%}-~hv*Fy-(v7c<FTHpF=lRB?
zD}nXe?mX9>p$l$QbFfg4YHG8MxwgFfVBU2wePP43C(CC>(ifgH?43)uF3k;R-(4JD
z7|sPAUbuhZ?=463El1ZH+E<33F+E$5T_kzQ)C7~pN}@6)B|=8iCR_wZy?9AHgI%~|
zT|_F1l9RJznAeYhC)!}ktXGggnY3SG75`ryx};OODnSQTyM{gl-|kvd6j-eE((p#G
z=uMj{*<;H-DA2@;BU<J1$ymc=#VVH$P^&xy%1tLl3tWm3Y$?ke*bwZuxfH9Atm#8#
zb&n7<ZCa%=R<KrU^2%SqQfg<_`E-eochRSJ;WMh`iQ}<xA!4M`??Trb+9b)GJ#aZO
zIi>g%F(D@<U%(fik`>>m=sPjsYa8<2^bPtY@@ANA-X_;qk~==2x8B*KmlL66e3Dlp
zqcPDZM4$=Ekz_*lg~9CLFvycW5Q~IBBAM`064?-q6~yUCNZjlNWYY&zsItz;?vV>)
z>oiQi!Mi<IGO(KhCb>5+tuTg2sUf|c!d1W)+mFVCgvd0x8V1kb2uS-tK_<EIrKNWG
zXk1T>kB<uc+1dK|bbC)M8RBE|SpbUE!$h7Op#P-NgT{yZ?(bWAXPH@k|55E)^XYuk
zThcM$L4c(m?&mZb5(1aSI1g8Z1=?b0T(dyGRA%%vNL`?z_dbm+UIu=yd_<+agiFFI
zo79*wxJinxllnEfc5g8NDn2ds0d+t8<$u5go^Cjt^CvSW@14r>cY9Wup4H}_HKu2-
zX9vA&wYh7J=_=AsWlr51NC(m%5g|ab$1^|5x$mA^Wv;HaTwP<X&YgS7x#k@iNA{iU
zz!Lt_`nh!l|AG64Tj$QC1K-xvr7v!f>4oF1^uSBTH7DG<zQNgc{N}j~mv!HB0C^X%
z&bv|P{kPX?VGAwD=}KSHa~*;ROM~1VB=cJysHEL0W(?}(3k)-*&$K=>Ff)};pH$_e
zmlVp5QM9s61D87wJQlH8k149+iBzQ{308sA?T`pyY+JdSd{Nr)DfPNlp$n<BV0%Ep
zX|NCZY2$fRIA;K;*8sTQ60^>v)tf+5nb~5}d?s+P%zVS7wVFU%FC4ikfrl5DUg_Ns
z+9r7+!WncZqO1f%@RA9hs6;ybjC2-6;Lz%=NiS&q1tuhbRldM#jW>lP%FtrK$PPlM
zOx{uCfD{jhRbLQJ$TcAM!(aXxOz_s=kgaCknQ?xa{NfjXto_^N4^|sKTootQxmY?t
z%ABx*%fstj7vPOeId?Ab>+$sUADl#woPoX^wbZ@N9WII&Dbwp*>o)O%6Ez+B*4z4>
zjdijG#9G*5zi{f&N~F`75wyqP6*>hkER8cEi8OJIjz$#C7J}}oh&LxCqjTIS=Sh!E
za~LTZOU8spNMFWmaPg!t6%)@&H^3a}xUvFMfyNlWK+b<6*S}CpfkhN|XYZ}O1*#su
zz2R+MR2S3&P2l!pU&kKBz9;Y&jVPxsQE1<XU2|{FAITgkAOLeGANJhu(ZS{OUtfE4
ZZHrL9zl2*b`&}<awT<^8w;Z}x{{uEKS9t&c

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_105954.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_105954.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..24de8c6ddac7037863b12a277f985ffa3e6bd130
GIT binary patch
literal 12470
zcmdryZA@EPcF*57{x-(u!wDuNfFXg9FY*CNobWOEf+R4>3?Xq0&k!49lV_75?DLGL
znkx2GYC!5LraRj>QKdDLk;Xf!T8~tzsK3&wRK1Il@V=%h+f9GuAG>L*)v9WH?z10u
zhzXO~*_F08_`ZA2x%b?2&pr3vbI;8`s?{X~q^jZ1Z#}Ieh+klUPi48n%YPCO!~=pP
zNP(9a%zg!f0uB~Vhz7+1j1zh#6VgHHglteIAY1~Ej%Snqk|LMbW5~mNi4<>wmu!NU
zZi1I>f|nP^kE%$;C*mhLF$PN%ME)OXB1>F^$HdE+|B}j0@TyJlYM0El32jtZ0gOqF
zOIo}wN7VvV#g%j}HK~W60e+>$TZ|e><0q0q&H8MWeL@Usg@jAHK2F_TfzA8^52)8B
zWaWL6LAT%M^s<t7eNbR!r_T4CKIb^cmY?Z&^mko4-_`5r>+bIF8t8WnboKW4U1k+P
zxnjQz6jphrcc2SO_A6bTtm1TE@7Z^I>;qjqmkT3Ua6T!ZAcEh^B^9=)AlOwld4zl^
z|0M-aa`aHe7Bz+IH7mEMDO#^tMVAGR(E_@X*3L)>Vg@><t7six4q0ddXi6Rinu;%n
zw$VbMDKJdSNzn{QzfRjui#DZI)6$UDccnl^aelmfi5An9SekW7Yrb85QdroEu9<<A
z9kRj*YiK<$-D@MPq16SnS4J3uk%X%03c8#dr*(XYASl6Ig2xm{CFNz$e@Ovd{v<c6
zSgz2HE$f%^^+UB=*Uf5uy~R%27?9FCXbIQXE?*U0*k3U%OJ3D-wjFS=j)T;pI(jER
zvm9Jcn`VW9U9^SX0V|96V<Aao*KUDscVY^r<tPSTv!MpMf#*i&v9^Ly7L%}nuG`R8
z{i{99!1^G?Ur3(dH3i9o*Vl#=T!%f}PQMOvg>@Ti+(H)H?@^W}dON*q!^k(RGJ1oq
zx!K!ISAVB=d$t(+?$@{~uuag#W<&bD%trGT676{liM}8EXraxNh;C65p%%K4ZsvA`
zCc1^QaJ<j#1uO^AO<5{8BdrDFfE|BhqPM-an)18Rh8d<c{A!~2ej8i-LdLHOLE$;`
zwo>Hmu9&?QNYwha62UH73p*H`AEAAGDZ77%_H!`agLcyUXgRn09H95-N(VRWONahI
z*2<wGJJ<KKR@w?|tk^EP*;*+k(f7Yr-gI8<dsQa|C&S@4o-_M5ZFgh~T^xSRP7l1w
z>w7#=j&32#k=JB7_&by37=6^E-MIU}*(nEnv3p9^E9d+=QZ$zL8QbY&oA5dIR(v|>
zc05+>MR2)bRD|8+&~dt>DE<U}oNnXx+!F<R?n%IA_uLa%D!1p_>667|EI!ip^ZyiW
z{|>EA7tHb7?yMWFKfk}9dd)J5Sn2n)zi(Vic_~i6CPfkZER^CdVN>){*yVkJ?=3HI
zX$*c`f{T`T!WkH6CH~+o7nQ@Wov;Zg4ODpXzmRMSRv7fMC6knYjB-vm+$1aZ`kf>z
zby7~>m<y<WRyGQ#;QoEABoOpdE>=dl0=Jx#E`agJ*2#+c-W^~C@3ErOef_Mc|4c7i
za{AreMXsOKyn3T!r2*G%ugk|ueYadrGQgHl{-Be(>mc0|tRhQuP<~c-+J5?-F2}j9
z_j8<BT_8xgNteSv6?6<cgCn<CeE}xNtq_&#$WTxVcZoaF<Z#nDPTF-i$0v`-ap8NP
zcI0?aaF!AjzKBpVoXK&9{b35by{u%?O*&vi_>+}Zj*GZ4E17mo1}RpCN5U0G{DEvC
z;P!C^c}@{-Pzh)!2val73aJVBjl&F#J8n6>qpXCQaEt_4DV}HOOUZq6H1)KDayh*Y
z|LADI6=VT)PdLYTP@1K(@Wp7h1WS;sT7rehl|_JOWf*Y>?(0%N#}j|KR#*_%9Xyv%
z@RQ`a1RSy?Ck`g)3q->_$h)izcZs=zXt+M#rD__p;vo=_V+Jb2d{kqUe`?Z2W|2xB
z!Xyn3aLi!DJdC*oSvgiV$BI)sZlUK<jw#=yb7b5_vO0{y4R}nT6DHI8J*3~f+wy^*
z8V^86u9jQSn=^RJ@7v=XbNPZT0cxZr=$e>p0jMRn9)hq01EYRwqIvSJ1Mm*8{-EFI
z81cgzXx)48$iV|ZVb!_n<1WhQ@>1`ExY!Z{7r`jQ#D5$n)Y|(Oq8DN{X_Y11^-O1Y
zpq^95oN1jkeCC-}e?Jrr#V)0_)!}!3t~6$J`q?va4Kg+(U30QL)rVToA>Fx%Bx5Lx
zDVUuHQ27C5IFOuXPW7X<eq`v6$T(8`3@YD~tW4ehX*DXhBZK`7_|l4~{JGKepl7Zp
zb~aIgEc?>N{Sn2p(y|9_b8WGs2?eTZP1;e_!F1`NR0S$M6_IBJ(;{OF(zPTTQVz85
zJkp(C7wjM^KZpzmQ*!3?06IK?3<I11xolOYihS_#N3n(_*^Z1{v#QX{nxoa9?R$7+
z{z&{%LYA)Dixhjqr=BU4_bZ|mv#qmZX~lMcHM;xms5>TzwZ)zD?P*Ozxaa4}+KkRH
zdjsieqmosf;m<BVxH@+=b|c|N+uG7)hmr1ZM6xC&G`iV_==E@S#!wL(Otj8BkYP{w
z+`lPJtL59`!pE&~GT!z`neZcP2P*Galsy%H<9sSZCoeMnBk1G^Dj$icGv&JymC4%+
z)lB<&)Nme^pO2`Y>q{S)=ghHfi7Q{(lfh)qf+O{Vrw5iUU4GhzPV}Qa{miu+%X-I(
zei-S8mq%PHBNJ$3BCYpDq|bhfwyR~9*wo`o332@D{D--juC}8x`(n@2&ZW!!PkT`3
z04f`Zlw`hj&F7%svFO;WCn5RVnKUNG7Bn#54W|~znafv}-g}?9{66X)MD>HruxnW}
zx}tF-jeFVSUGW5wCz#euMMTdG#s~Ft^|8i8*H<;kfn@zcZ|Z%tyZdPqb7gR8=sI)d
zIy!p;HQiuF-OC2gieUm7CYF7ZE52#un@$_<Mr7FT&D&>hMS52C=2-2VB`!^vk##T9
z?~O<^fT~COns|4j|Iv94^;}+ZUmlgunq&L^+!;5<#^#SPwxg)(DAFHIU0odbrgiZu
z>bSsM97Y{@4ls++oaX#VWvcV<Yf?REZztN``JW<zqFeArhMuSPul>x$tIT^tOE(<M
zdk%E*COUqTA@87$J4k=$4cz~W<Gv;*O3P+%&(*<V(3j3S=S;Dhxk?zB!59<F)kkEj
z=I!xHWNwNmGbT%H2AOOyhnCv-O!CsBkC3H}kyrdqCV!KeW6oY<hHfqmk1#_c=q!nv
zNXF}5HcYM<0>}_p4&GS_eu#n}rVSrOWSh<Y+wdru{<m0}W=o8EToWIN*U$eT;Xu{x
z$lRW~vq*kpUmW}TBj%D5op2(vGot#f)+_ARvN>5yl{l0$?h~oO+(yxH5j9<8-n+J}
z8(Pshkj}Aub9m*Z2i^3fb>k7qs(IUk59dCNQ;9=gwlB1&1PdopPSkW_QP0$!PMbR;
zs*I`X!NlA|{Bok~%c_N{<fVn}sa9lbPdS;LC(|Z-M7dhA>#_55eZn3eLlw;tO{To|
zvHkJwL`}R0mG6$IS4(lJv?(!>8bi%psI&_<YJ)Z2h765~>#3_~PbV^Tf`M6fu2^;>
z%kIRLFNYR}(w3uOQkkk94^PaW$cmS)I?Tw+-?$EnF0361(^rDzfuwAqI(2L@_|2uo
z574nbWb4BV>(ZMS)|JK1Z)z5MzIHHuPSoK<dS^yolaPLXJGnFQ!Gbo`m|Mw5FQA4C
zcq#P>Uc$jju!3po6#k09Edoc9^Ja7I3V5?4Q;sYO$`j7%9Kb5wzMzZpx}0~w%aFN!
zlV0!xSjC9n=b0LF23_Dnxq?%aZ=^7yYKCsO*NeXfU-MqsJ<~n&1A-<zSd0y62qF=m
zmVIje)D%+Cf}%BmQ>Y}Q45^}Jbjf%F_z3E=@WK`?`w_gQ(Ir13e!TuN^+y6)Sd2$;
z&Kxh{Spr(Aaxo?~t)>;@mC%O<`ViA<=tDv)Aea7F!oLeaeL=Bz80Z^cWj3S{;j|F<
zM3sRCiqJVJw9uO@&tE{i3e)0`6|^KQ1FSq>D{2mDg4mnq5-kd@zb<&>JU0J*lIxqg
zPm7A_C|WiuDA0(gn5+dol;k<{r2=Y^JMO6P4iU&|TU6`@UC_D+Z~p%6(eu6Kzr035
zB3c7uE6r2*5?{l^ztr*s`0}(FHQ1TPC&4_jWm-vV@LLXN3kq5ZR!~A~irB)NWWpBt
zCc2Q8Q9_#V8H4yX#-(C!sdWC8OH0cFJ2^Xr8KtUeEvcl{`PURr;X7iEBTc+ohu5Zn
zfR-w3@05^K`LqD3bCB962S}5HG(G{T4e4kp)YEYkzMdW^x{y9n7BNN4qaxDqi9BSW
z#UwE$2$j;M)OK3zsmh5_@Zq)oCfxvMB4iA1<D1b2JTzJh?~R~U+DMC{=BNoYp^TbI
z4SrjswVrCecK%D2^5flvz8<&Qgl^oTec3vl*rNa9^nCxt>G}SP)7SeSEv0pDza!A4
zw3L?9deZcn^iKs~6WV^lX6~KQarb}gggY>S!xl%aGh%B^hn0ebLd>Z0;SX!WjLBx5
zm<j}~!!B!khcy>zur{y)+f13=>$Q@>yOXX!whqT^rY?WTSlt0D<+?rPrd*`;19$M2
zHGde*D02rD<%e#n^W7Zpu&z@aK9`GxwhhfMtRUNqlQ;|GjDP^s3moizfp^4_+%q{8
z2?B4Nc&m8X4%rVyTRpNzMX-nj*Z}#BG%AP+M@672VJ{atfyk9Kd)H;fBc%I|P0Wff
zbPd>938zP@2HH|q$O2d(Yd9RH-h%=wZ}&PUhDqn~neEQWN$*{VBH_SNbGz3+;`9cN
zLm^B53b(~;>DOW6Gt<MW`KtJp#6Z%v;7C_=q^1@}QTYXG5a?WNjlz5I3w#XQq;HP-
z*mM*g7c1dri7j!1g8<PR9~|@&2%SN|N;=^31^g5%0dD|D)ZlaI0EIVG9D(r#-D6Y!
zsQ@d2Ic3FehzPJH5ETgCb$H$5z+}V^p#W9{t+;zWgwnW(n5~?;1}r$Qgo1sRpswTW
z2F@HfyNNR=&W0glWjVWI<(xu6PgE_&YxAba#h0iZ7^~Z89uWSS3QkT1v&z6{3@aXk
z$Q&02V>S8EAC6>ElRz(+vT^{6MpI6nJei$FRpI1O_n>|heu4jiZRs~*V$DR<)&Jz`
zqpL`~Bit1^G<zu4mT7AK^2ovwByI@56LH6?SCzWicb1eEM%>L<_a@7dvScvzPU<ML
zy*mvkr6r@(+&>aM5)(aC%qy0ZHH^51QPyPi)_5z@?+l;KD9d8zC8d=SUyq+pRwh+U
z`(>tokhy$~xi-Y?xSkeYXOz}gxGXDo$1h>ImXy00aTn9vl@@oQf-<ArozYb?y1K+s
zrm2Gw-(pVQN<*$Z4z4;QHa?T-XPf_W*H3mo+Py4m$!NE&Xls$SHX(^mFKJsCc?+Y>
zW51Amsa#P0)w_Rl?Wfn6dOOnE8M&R&+A|gPD;15XqVbD^UmjaHmab@9sW^oyPNge4
z!F`vP$9h*R&B)T6w(MQ897L9bX-gZD!(aI-CL(zwxZxS4ktuIjQZ_K+sl>UIBKZU6
zl#>~z7-xV91ewOEw0Me9HmsJY?>9%A(<PPR)0u+u&kYsPOP@`xRJWk&mZTtEy)WGT
zGo@j6Cf>7TZi4VjBrtn+?i{17Msn+lybj6h;<po}3D3efV>^QCk1orPts1w-cPtrq
zMu#ENKrOY}7xq1!VXog?>bv<5BDl$idwy2BJ?cy}ri4q4M;~2U6oh;JU3nqgxvH;<
zA7J$L;WIyLJ2~rl;G6TMO?4}#R%B{jHtk;|!@bYN`q`aGYz9d(az#e2<o-+<Is5?z
z{tOwp9tyLyQ8j$-tE1{!XBzbKt;z~6HlY6#V7o<et-ewsU27op<<DxG61{)h^>^pL
zKA)~RlQC3fjMX^TnP2Y5bq*6MLpZx7jlf!1Pk1lJ8`H~QL;iqp6Cv1I@l7Bk2nj=?
zkeC#PBn2-fu!J@y&I1sEpCS4}{3PcChooDy5z-P;g8c-p6_x-}NcNpt$qUX|DJ`Sr
z{3|-#V-%isPdwWP&f)lw;-iL?4MERvqru~phXe(^W4&xhV+5&qEa2qLX(6N}OG2t|
zp`jA^|5aK2;PVF3mikeBC;b#}^_qUbn^uv^FH}!*x_N`1)SRCF;4K11t9iofesinP
z{=XTm?pusjk4H-r;5He0ZDP)sq;3I<!go^cxsMu!61Y%Pq|+u~rKIbQd&I?6WR*cz
zAm|uz2H+*ZCZgQ0wxa+9mUx}KAaV8-)458xhXH8us&7%qZy!7`4nwU%+<w4e_oEPZ
zz$T%lFiryR9Hfss=(FyVG{`wgHZ}LuIOPonvQC5*YG*x(FfQ%D*#^Jo6Tq>mAozXW
zT;L@yX#l(1uecsre?!md;uWXkhfs4Beu4i6M>kBYYINbAH5E~}zrg8O)t83PK9{TS
zE2GNUuGpdYp+sBi(6ang*#5jkd%r2#G&>seB<%D4<mhrqNBHz6San6LCe|OXO{?p|
z-K*Pb9}dkAg?l0wkhl`M+|`1_HR1EKb+P(Yl{(z@TyJ_{nX@cy-<vWm>raNyuIi0A
zE0E=Uye?6ns#})Z^OAVtjY+|y7QmL+^O9`9@{%MQpH?zX*Rp!Fh(Nzn9VCs*>O;Tp
zP7}dp^?}zql@qGca4&ZY0Jk46h2Gxo?rxi&Gg@i_5Ue(POKJAPTlo|`<gs$TMBzvU
z++yxdx_x65J|HQ)f3YHuJIDq70zudGB*l60)E!Lz5R=8je!n-n60ixfN_c7q`*)1_
zz2pLsy^`dvIum|!%Ii8#{RPwmBP9X@kgtgZ0>Li`)jt#Je<3XYO6-7lD53mb<;Rt4
z!jM4FCjf5)o?M2aLu<Ay+(=Z{JoL_c*P62MZbE0cPe<vsJz2P!fG9l}+*(T(-pkWl
zv+%wgzhCX=;FlsosN(y2M@;N(&Di#2tUEL1+cL%qh&cbU^sGQ&$jDUp=#S|&5eDEj
z?!F~zS(9J@1ct?fK^X_iiL%OAZEWfxJx?>0O~|-=O~DaL2z^DY?4f1ef^>CjN)D&O
zxY9ZGnwkSOgu%3?<%&8&V_4I3MFXKTu5nVV840QK-q6QGFUv6H<*1MlsDC9N5C}?t
RIVmKx*0iSPV<o5c{{vD^ZBGCI

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_260701.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_260701.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e5056b55a567b73923179cf319eeff6fc6753857
GIT binary patch
literal 8238
zcmdrxTWlLiay@(wIeZOYdTS{^BvWf!FRvVXeO|vL+p;akC);;c<mGZTBbgLMa)%?^
z5}F8oSit0F0aL&pL?a27n~$6?ULaavgY^Od&iOhY?uTP)BWB`5bU6PA$OreF0Ea_9
zQayZ#wrR_^@dZf6Vs~|Qb$4}Dbyaoymu9mO!T0XXzq=wdA@m#4sC*4&;7OE1XbEwM
zqe5uBR8!-W(pJr?$2AnesY2RW-MDU6Kdz?`PX%q2X*Oz3&1-`8jdlg%H1+XQ8czG6
z=5Cp6+-N|x|2PMy<5AFEnPsEq^e@2EFTfjk6KCXKFdK*kam-75P0(vn=*+yCv%t>^
zKU@9PrraF+p?2I-m8bnfG;UQP-df$MZJzQv*U5%Py(*bL8x;eQus<YgFN6V*O-D|j
zJ$lMFc5-~kcSbgx9P<rb92)hVnsjW)0O<i%!|%!80<?rg&|&Edsw&V%%~5yD{c*=8
zl&UJFa}!E+mC}VBST{3)kU-5N?8N3OtiG|YW){r`M->RGv10)m)w$fSM$f698r6Us
zuzLY)J>D4Z0B)ECEx>N9xzV`Ee43}%4^x<lH)0oVtnR^$U1Y6z6E<?{1(0sMxn@pX
zWhWaoW^wb~vKHbkqM_2mQMehm+$CCr?-)v}F3-bkt+=&jKIOcYC@Lk4YpKkqaMFg`
zaPth|q#e8BZ{Rnuk?a?@DZL&{VUGfJ)XZB?_8qwWb4_LDpt-W%MlDvsprr~{fvV27
zJj20OtioFr4z_K=!M4}L!FFsD)Ob6C;@h!R_;=id^@>ECm?kyhg;Rrk%5c1MGm4UZ
z#k(q_N^NXZq`qU5T_M~_R>V7Ai*&u4uGaM$SL?=JyhV{+H{Pzui=3)A0jsodcd1v=
z?#>#{>cj)AEz99eMG|GZr)qsw{ZXa;?0kAun)>*5J*}0kzOF_~eYjcSwu_t^MN%a#
z?yBLw-sz}l@%5aMSJmRK*J3k&94!(_{NY+8JF1RKt3JjWgzZYCFvfRdL%e6hLt-QD
zsraK~=rRYE*IQTTy^2QrHq~Gsp{x3-{u=uFmZ#9;{$OpSE&Dr+g3dBnQ`O5)D(h8t
zLZOeRG-w`qwW9(F3+p5nuM@~i$(mVzY{qMnRbogsMuo_<;GgvcI9U^l_&HfU8wkr<
z!5^OHWu3oNtHg+`pMq|2pkLO;#E3xpV&Z(1m$jTy8Tk-D%ZEjuIPV>hsUOPfqi4rt
z_1MW#*?9DVZ*1t?>7mgvSziIvXD^(WO)*gjaJ=t*zc_hCHkVs5{(}%7mYH(%3J+Wv
z%MC6tD;tG~=ojXF3Owt-?kf*4i+~T6TQOM|CL?3Aq15dYA~F*Qi@Xrx{a1O|?qnn!
z6u><rfkaf<5Djo;PG|xu>uL!!tIXkx!K$LHhv|HLn3L)9yaAbxOijgj5$LQNtog3^
zLsPQ8lvtgTsTo;215&;&kZ>z&qmdZU>nEWCq--QWX_^x9DkNw6SRh>LB|xQ@z@%4q
zo%HpV>podW)avV(Re)1n?~^r=Ik8tM`(%UCr*K5iRAw@i<VD0tf!+xlYM3}S01SHm
z@bC8*dagx;nOM|6$@g6GPtN$oE0ORn|1?-dPfVEX5&79@543v9LK4BaVp9=ec6W5%
z2Y4SCgBS_>CL>@H{e!)Gd;6eAHkZj~cp=P(gcHCW$wXuS04F?w{=<e?$C7!`obl&v
zp2W#VR`ymr70;Z@Ti-~Wcx1BNI+Hq+>ByT}6GLlyTl(}vy{AB13VLgL@S(m5z%@Oa
z)3-fxx|fbG9?y*2X_8v|^Ui^!;gQ|B)V0`^>CVne&ArQgQuCg?{jH?F;AqZVk{q2W
zdd=CEHA>Fzq@ggdKQ}P^N&nK`#l4xm*-KK(?iEMRgOMb?rZ=VOhx$gclC?4OmSpuL
zPOP~-*~5#G#Mws{+pVe8RC*%&PTn$*IR40NPxqxG*=wujo+MSUv7a1SI=Of<<Igta
zonFc2O==5PXZp`2YiClkW^+N)-jL~*?Ax+)l6@yI=W5LCUA&w$R=K~kXT{#TY9Em7
z179BbYUGQNy#1Y|e(k#r`xnMqXlPGgNgn?-<1V<`vS!J(Yni_Hw$wW;xrQIG4=((o
zNpgKZIsB5&+=Yvh>mng>XIzVyvh3pJ?6~CWNe({(T{bK>WZ2Bb+s$`6SJ=K)c8|pF
z`SSZ;jejwoXAdQhyaGwV;mYV24`jDwuYI;ta_mkXdmck9<3#F2dMq=zIFa3RXX+c%
zThHNEO>eC|zektk8m+rO(vds&p5%HDx*OZFR;jUPxm#*HkUaS`*V|Uuo>jJAV*9`B
z|7!mi`}6F<XE)|uVfU=EdnI=7KdOFa{Mwjjk0y^izm4ZH&u)VI#x(FOF0g9)lj0DC
zEWO{Jpb*U}w%L?8QLr_`2?7(`pPBz>vlk4|;?A^5md-nk%cmsoJCfy{`yG<yXi`n=
zb~-hk_Gh*(PUkJ{fT4}I=oFoHq+^RsnWLYM+#bn(@RMtwU0dziCw1-1x9<Oje*0TJ
zvUERz(~D#ZybU-#Sq=US+&ehcvV${D&Q*OlakdZ(VnPQD5jx2@eIOhSfs2t1#DC9C
z`$dRF0x!-9;mO*Y47tUV9N<X;!ro2GP3ukD5`u^dsAs<k$i+Ugd}RB`8aHCybt<N!
z5H`kjSjSNd5F0qv%nook`Vq+JD>v#NQII((H&6v%eNzBDRd0=y4eO>#^R&P`+WJ&~
zi8x)#2BjYBprrp=U$dU-73MYIx>PTnmyWr`a<+s}ux?&j$uHteScOrX5s3#@zKu*u
zWGc9zsRC`(iY!4Bm6<qWC0F5?3KTabElF$AHl^lFAJTENXswLLX7Uz-5!^FXSOZx;
z1Da$jy&E-GeM@*jzqzvh3;L_C7BA?xRL6s!QkImB+*eXo(5@aEut~8Au$9lPcgy)4
zSQ0aaytYw+T*{SXY@uNzOYqFj#YE5hyobNahZovN&H?ebiaq!}&j#&+6V8h#cEum%
zJ+pz>EJ>R7dls~wt1-`x1=UWEOnDcaaGai_StqII`XMMLtB*F&AW9@`J~;rzkJU>k
zMWs|V2`kALpZQX143Bn185N~XsbPDn(MqOs2A-F6r9ciD78khc)ySGNL+206S|!U9
zw!v6gS3cLo*gT0uLO4#a^ns9n_I=KOaG~8FjfUnSWh05+?gOF7B;+Lr0VwrHfjZU#
z#qSa*<I3tj*Zn>7Q)YSi-m&{lU!TqII4w1v5l%wCKtr)kjN3~oS)SJb`74p2tc5HV
zl1?KeCE~m<6oB-CJUBr9>%T5sB9JxAUl)DR$TeO7-{k98QV(EV$yvRuFakuvDN>v!
z#TinJlHx2Wsvb-DQ_?&Kg{&{@S5`xArlg*-W*RbJ0UolDA{pT_Krv$3PbXl94jn4V
z$W$vCApnFI$%qBe>+ch&*oZp2e)5CQejsVKB!-fM>A}q20^9PC?aW+DjI1%P43#>V
zIrorh&uRAMJp1xcGVKM%o(?`_JUPwb+?K<6C>c+IvE161+Lv)>n{$mjA2K_0nozFy
z*!{7eU;3v@_fI{T%U$@h-1&*z#Jf3PAop%C7o5rM4&{M}+4(;i`)kJj$l_SFv`d!u
z%m;Z(M@qeBu_o1z9qvzJe>J$;(kHd_EqC9izUaxf9Jzla-*EhaJ?}W3IQ=W;OybyM
z4V&I3X&MT&p+GarpS?g^6~LgxC-yG@y(tKTECt$})}^2-{W%IGP&!HW7nB@3{<F)e
z)fIOllQl7-*xDrMq52WKQ=-rBpj<)$6o+F&;!K>1tK#aohEv70FF$IEuTx_Ur-s`s
zxu(Du*KIOJg|(cPycjB@2nS@8{yUAL#qz4)d3E65=*pcsZor0My;n$xUc{Af`UzM$
zZdCS3$EljtiCmufrV(fO8%p7~>~P`?XN;R(K|)4&%Pq;L9JMx;kLf$fr~att<O5O3
z#4(?n?v`cq5;>U_IsKov2-vOVZbkMlwhHV2o88)8VYe*VEk+O)?W10e68F~=fLbSl
z5{SEA_do&RagOuDdyJ0buLdT0g-~WhJ|_Am{W0Fx=T)yG@asaTGEVRT1XGf8vd)p>
z0qOdH6f;nq_o_<~XbZt8>2l3{{SX6{FjRvZ033-=wd?Nj!t)QokyjuttOOb1J%Z4Q
zkc&qIuUXa$d~7Zx#!8Wk1g%o|nj(-A`ks!CvJN6%bWW5_wU0C#%*M!n1w0k<O5u)G
z#PL+j!$A3C_{IJUWRpN^7F*(Y(S$k&YGU3R>qv||rp>pQ6q6px3}y%K?7cU*LLW&S
zer&YfdNcKAdMXpVbNF^-d1}S@y~NQMV9iaLj?7qgYu?<M7+!1J`su{&iNx{b8A;O&
zOK$IxG#!c4>CQ~on#r6Pdd#|)S{GX%w)ft1uds(8;Id9q)bMgT+j*z!UgrvZc!QH*
zwtJcStOu~h!yBADgRO9~-2I?A=jT_<Q*{{nqsm~}xndst-(K{NxMJS(+@drxITE8v
z)b;9>(=a+ZIy^iKNf|NRa{5-vLU)JYDRT~9p=7!O3FM{%#ylSlgr@}(Bn5IbWpywh
zD%Z-G$X|~N<$UkFV)O7m78YgA`;kbfbRdWs%1r4P_@*Nv?x(1fa+Xus*$6im;tvWp
zfes86#TY1yYKo$MgG~R5%)dgd|Aw}#QTm(BH=2v8QxtWeNTYpk|IGBYsc2A|Mr5<!
z!YTY)hBTk3k;+si<W#7kvEbcR=<F_dw!vFN!P!)Bw|wjBr>q6N=_bB`i)w(^43=B1
zsn((v;GzzJ>64b8v}nXSiv|K25!;k;ecF1vRkC#!8G<q)i#yFPg%(4Sd27*3P!>Yv
zSTq-{q-8^PcabHK9a-!}2Z5Z(<}4Bpif*K1Zcf~oc+vo^Cs!#%nSV>4rzpp_Q5CX!
LAgjB<D8l-0*qS$i

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_329295.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_329295.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..829d8311b37d281ec5de98f75529bfd39037df84
GIT binary patch
literal 10476
zcmdrxTWlLwb~7A4hVQp%y(L=@)3)BSWLd7fv?a@y6e^13c&#{LXb$xjDGx`s<qlmY
zND*q+fT;YKUKB7L1PHx05PDIdO3;rqD6k1qv>Z!VF;f@OVg(fbQ`YGN?Y8N;!>47+
zk2D*g9ck{|bMCq4o_p?@IS+oRRx2>L%vXOo@y`_)_B#ZmFLSE%=<jh1yN*#9h0kE4
z$tOOF3$SRG7!~6PCz_GWN=K!$vQZh1x$!Aonoage5pMC6Aq%H_lz0ccWCy%-2fS<t
zJeeOqrlREUi0`Dt7*)uz>>pJ?DcsmpL0ZP_lTz-0SM7jTyJhYj#>Pa2z?jmwrTOOy
zqgohM2|b-#P3hq_z-`PwW6VUE-jR%IGN)yJ2OHIjFt;|dPu&7;wLC-{vRg$wIXK5m
zdOgk=UUJ$49bR^9VDNaqqo3b(YS=N{Gc?d+cMP65G2AmU>=@~>4-dY=%VFeI+bb}_
zD^J-+dZ1@}wWphxA0M>$o$j@b^rX4G<U)d{FJx;3+>d@EM;66^T_vw6QM#9XQuv+J
zxWDijl%fn}(K9HC3}rD(Qp6Ql*I&Y#DSUb_hS3tXh}B+^V3-G|aDOS>WvtX+E{wOs
zcv}v4aaPiFj}@~;R{+SYQTBZFlqh!=TXqHX1gn;@IwT8Q%<9n-(fBI>t4d+j8Ehq6
z$nHW=&U(_cRM{tmv%Bu3G%ax3&F*H)r;!f!uqJv}&g^`<1MTF>>A_ivzX~{13B0Ov
zX6Ikqm|ojo!@&6`FOaE(HQqs10arH`B3?fQ^3<}mY>mKoFT0m55oENo)nL`wpNl9g
z`QET4f+qGNEW#(T!mNEy(8>`H*1C-rEX=<@NAi687P0#fPj){gzAH&fI;9i@eym|K
z(3C3E&2%zWao`#25t;R*KgfD@Y(dh#Lpa^f?%t-uq>XLUA#2FkR{e9%C=qm&o!9V;
zUE*woFr!{*_iU3Y&pA;)j5ZpdQ?7;|S*|A50;hz&G6Y+v#Qb$^BYQxw?<TfRI1Thw
zXa=kRu}#TQB&EM4XHS}p!DTuu##ZL&x|w|rZQqrpEgjGOsyvN*Qe!PI$~}Z%`_KF~
zMiJ~byA<@1wXxP0nV0;^=2-T@9IfSh@6#6A`XgJyv%E}Nu7f|aT<uR-Xj{rc+jA`R
z5Zjir(Dob)?a0yf(`+cI>q9SUL(j=Qsj-e1<sKrg4T!O<&tgf|kn6KvfBOlKWk`9f
z7ya5E&e_S+Z1V8)o;|$BDUa{(%;EjCGf498d{Hf3dq<2dU{=yjqXi$L*zF<ejVHfD
zTSp<-6wf++)4asXOt|S39>c6Sjl{8%yoj0M6?3$AoOaGSCMjM#<8@NJ)JZ!%<8EG(
ze25q?FB^jqrlpye_!uwkwjSY$!P6r={!^YfJ~+%1!>8=L;`r%Q_&UsM9*<*rsn303
z#_i#yo(Z>;^6?7V%Q)!;2Q@j%%adac+RN*X+m4^?arF0`O>yFNK8Bv8+z#(N<2dhR
zTob%L2b1EOi%KnE$e}_@qJ=am+~pJ}Z3a&9$s$r*(yL!~q<GK}^I<d!w`dt^NYtR%
zibkO}FPWR99IzwwNJ>khE}G1fuw}=Db7qWJdB?_l?(}}du6f6KUg4Uj9Vsz1sqwU&
zY1o_MDWYe2DLPnKN(OTrK+j9hJAG~k!%NX*$22dU25O(1$Du3GPV@3f>axS-^*MaJ
zOhCDOJOMCI_$EEP7)Bd~wuu)(Pjnfc3-DZM;z=~qeGv{&hI(EKOoets3L~DJb&m6-
z$9>5mz(P;J5kSZj7o9V{BcPdz|HbtmryDML>1p4b)8%fMaJr_Q%!Jod=Nxx?m<Av1
zYGB;6a}5ABq>PFIyY-EE>Dl_Z1qa|AU_y-716v0}YH99h?l=e|ygEfb?WR5M8F~=J
zL}%)A!5IgzZx3NQ!;*i|A0ArOmIrzsX!Tj>)ML=e4Q*j~Xz|YiClgJFSDe2p3w4CA
z-Z$2LIusa4C{=;(gx(V9OUQH~+uK*s%u9=xLRTWEI7{8Cwmv9+V76R8vwS8z8ntqz
zEioro+P-Q&w9?9%j|LS9b76RpGw+X1tdw*0Cpq)UfE{r0k~+>@7bD}H16<<(XC4UH
zH{_a-WwHD(ns0X8=!gtOWvj)FoV+n`ETPth_ANRBCw_bIrEBMx#uvv!p2z}M(72{)
ziVr&jy@;T8@m%1<rdqpncJXZJLb!HSy&GVIC5(p;Mb4}n>VndQ$`E>WaWIG{^oGz+
zmrH`u4O7uCn!;4LeR(i4!I|n~`dI5H`dItDBF@wqlqZaZzo-n4glm_NM$U4^`dH11
z>5~g9mU|7H!4{M~(C7qVT;Ws8-e~Vi%bMosy5<<CIrg{BzdrmohgUWBAn{y88_I%k
z<*KqcVKl$z44XpZ%bk&O&e#~U#i&ngvGIF-aoZ5rI>Z@Y33fk0G!$b#8H!!HH~Q&b
z?qFZs{s!0j24{2xyC3L{*DcGIus-|-SGYe)afQu^va0uoqT<Mz8{U{SHBZZx9sShz
zErA;b@UI8#UmW{8`X8=*apg<<7J;d?n?D4T4ehS5?PpgLmZA_9A`*II$hEvHd@N$T
zagx(l1&=+6d7#oPom@N_8V+}HW^1&YGdCv8mhf0!>Hmem)i!+dMW+0lFl9@M?J7#0
z@t;N<oTYUIU$L!FpV?N%KkoZj6F+s9J9L(_j0R68ENNp%5$aclR+!I*RxW)!`f=Ik
zm0U-Ee9*xi0w!+;dmk9h*V~ud!%g9<Trt==S9~Z@QS<(VXjSCWEp3h=RoFf^g6d6n
z{A>HmUz}eX8eSiIjT?IHOApe%e)DlYGOoD&d-2(J0G8sgYxzo~JKA!qkF(UH-EGHg
zI{<idTNCEe$cbMzMX6}}t-;vX%E)I;D`)O`xvCy?0KMA}pqDeZ>^ub>Krg=4k7LIA
zZ(oLXS6C6RYK@Km#?bZnyBarFbNXt)X>{-DL*4L^n1)Y^W`EQf6aUH?lii+*clLAj
z{hX#h`@T8D^<2T;XbV?RpD3<;zcMlssl9PD`f9BElge1{Z3kC;1k|qW3KE;7Vu@TN
zL&nfmSSCtv`uz#LDcqKK&c714yz3h^W<2@`zO@*SU#7d@NgqXkCg}i?KLh^=Q3ANe
zBntYo&dX^BshspMZhFS;yy&LDBYEa#z%}r4m)A2jKkj7Qyp(n`^R&m6sd@nSVz`A`
z*az@^zmBnD3Y*9Ma#rp$u-Fs~Zoke!Jm^>Wm4209?Xj|wfT$098{dHzIQun-k`+&-
zYAd<?(zQSe7ivuksN^VFJnyOy!uhp+9jk-<2_*IFSv{+sE&|7tTwlv7r_W^|Jy1b7
zLJ_E*mZHF?@<p<ud{~$0vPh`J>0n=ZW(iy+Xx}&{>|RZYb7aA$kjLD1rT6N`V24i|
z$63)+$3;0A0KuRDOStmZdQver?O}<0T4fbuLd7wqAtK*ib5_U`t>=v9skD!YE~d3l
zOc~RXW}i8;^YBhrs-CJ1!lPi7EFt6}+UyxnnBTyP-)aE6`{S%DX2r0A%x7jY6}Tx=
zc4z4xo2kM=of7jK1*?Tqp(|l-IcuaOtUg;aoU)|nWuGkeI89nBP!Gw}w5Q-b*nTmk
zX$-6&LKS98n$E$}Jp85{9%X6z?2}benY@ivu&Ob_Z)Pgf<E$A8z#5^h12zj)X97+_
z1v}J2#YFDYv&N}CY1-_QBGaowb(`3MMxLhGVO;Tyab;#4$$>qG9QkRoa^xS+%8`FO
zD~IXD-&$7AO5xW5*`3rm<Dlzd%&M}}sH{t?QG;IaNetThhXLq5L?5e%fB5dZ?;ida
zYW^EFaDQhtK#n@$oP+e$Ge7HwUs)(-0U!l<2WE17-a8MzWD*h{ALI0Z*N{Ly3t6Rf
z#O?8UX<h=Z1*N(0Xltd>FLJyB(hFw6F*7+0)GjaN6udN<QSe%i`!eI0^Ime(;Itgg
zJTZ$hDHk<)QOGAC?-kNlYXLn3tg^0-eg%QUs2M@cY1F)mnlsQqrsi{8bb^QT@Dd@9
zq>;_i<!DTnPG?mN<j^xIpGYHPrRz~sfvB`u*Xfw>`cPgt&&<s;LITT+$04cqq2Jo_
z=Vi1V@lZME=4KWkFGs05eF;$0aQprm4k3VT6=3?}NL5@{6FBvi(v-07`^a+J!jUyW
zN$_Im;*Cp?6vegGak3iP#9r%1vfDC_tPZL|W8v|Hu4r9X!Rabib-N=&oDL=>^u>@*
z6qVkz-mr3FOW;)SazbAiwk?-H>ZCM>E%%ibadAalS&>kh!qWT7vbeY`t}H`i_+nRh
zC<mii>R9Xu6F22I<ZH?Uk)aRI+&Xh#c_1!6zzJ<!c_5)Qgj_%Cii-<_T^po)Nwui@
zxh7ysDAY^!i}kCDqQLRo{-#VHs{f$+!vnVttjQV@+R}CH9!|R_Dv4aauWg8v4RLK2
zdsp(2^0x9XPyf|x_g;(F+BmH(PTJyHTcWUby>K5_xbN=4k2-I6t`@eh7arpZkF6GV
zFKRZl=CFp-)<muMwJmY7C9ZARC@2aHCS>}!tTbURzyA92>mMBau=7^us<~m^e3&yI
zUNs+q1hJ?psQvBUhHIzS)uo)eH0)ecSHy+_Ctzl%_r9$7R&RpT1bv~t<^H&~oFgmN
z$r?DP$c3meI(2(GZtdV|53iA(n;O%)ri#;4eJ~s?ie0!}zOrYvx@%Q)G|;=LGA#8k
z_J^erd{wnO(i3fqE1Lt|n__*a3JweSCrEjMR0{uw1X&<p0116P41HC(FDPA7FRDZ5
z*T}*c4#P=kl`Pz;|5ZtK5ElYV!!=d33AiMIpR0E2Y9Ek>P#5Uv$gLx*WTUXOF)6^e
zEkzRPRvV@=1YV+F1}k>Kow-mI2L)}9{vF!u@R{+$Pwztbhx<i-!Y`&oeo0O-4}FWa
zU4mmEAgCnnitnHz5nO)hGv<g`2_+F67Mg`5K(l1uYZl3*Rs}~TWo0ax;Rhk^RGuFQ
z!QDzxX@-)WgOwrBMf)WEc+TobFWathjFP_(?hNEjX~D0g6n@onXh;EWGpV0cp!rPw
zsJ@qe^3QrgKgfks%DbvNDczt{U<W;^1wH+rw+Ps+=1yAoJMUKe|7N$k=h&?t?UuzL
z+%VX!;$*Bb3Ml$DXdeCqH5Jf+Q=g}tR-Bho?u(Nyw?N1%8MlvdxKQP_$x1xLpaw6@
zqZiOT^g;tm^qxGVQ1dx7^i|ZL6-KPYwg@1XUo%wcg;*eGjTXS6AR(8o)heOg2#2cm
zlt*yW^qUAFWrUE%s^(?1+c!VM_~;9O&xR5-jlc@jY>Q6j5zdF2Oo-w`QP^YALNZ9u
z3o3XlQV0U&ui^In0rU~THZ;0G@0JRyY2n1X13kgEP+PctLvIZ9ZIbFG<)Sjw6K;#N
zMcY@}*2rT4+onRhw106w#0gVT8<g3`))apdIKBf`T^Ozm4@dT_s%ru#HcI#0Ja^+<
zpf~suCoX~|s~b3RWndsw6RzD*sRKQm`hx2v%O&^A8dnO|^gjvoZRky?$&qCsQWLFR
zsaYd!SxKfM`(pU52EZz8SxL5G(~`vYeO?rIy4TcWc?9~S>L6xXQ@8!ti$<9>b?Xz0
zl9<XEunV5nDiz)UyZyw86IQ)ot2Bxud2KR?uAhM)o93aK&y(pMjWTSo--WqJ&p3@<
zBN~0Scw%aj5z0J1#(jB?7D8-#Oc;T9ofn_?dS{X^05U;dnKXOHxOaxSjS0deZI(PT
z>!s#r++Fm0KnF&O`TC&UB5)l49j5w6O#M$-$=BHK4P5qa(OX4ZqBn88YiloNFd^&N
zvI^intYY^~_6EDPUjPrJN9zQzJ`FYqU}G9=62RsZ`1=+FJ|ZxYDz%86z#5wp*1AMR
zRbp3Z!c>?jDE`Jch~tKYO!Y4N7Q00t0BZe9C5t6n5(GdI7G4<y$^?+a%thfn;dvxo
zyl6jXI<O@d1{4@X)aIKdH%cJn-ckxU6~Y;p)mv%-)L@2!Ev?YiVH(4hUg#PyooP#u
pV#|a{mG7Q=>)azV8hJD)!f^HP$q^hkegl1N#j2+AEv2CA{{hntGxGod

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_338032.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_338032.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..53058ca813340d369fc681982eb832764f887e92
GIT binary patch
literal 11811
zcmdryYfxKPdiU!6ej_Yi77v337!W1~KVytBegQGyN3hqj%oSK5ByuHeOs*PbC#@xK
zW)PirEHXP|c_%ZG<IIF~I<q95&d~gFcV{{};MU5mJN0(mAO1(yX_Lupn||j?7s*%{
z$913A*16|=-}xTrJKy=vIp5{iYPEuZ=fkm&FTJ*fAbyJ*{8NyrJoy`vAZ`#8L6II}
zF#RS6Nv<sz7Y>R@3=??7<B~zixO7lT5-xI7$Fs@4DWOX=YRI<v8YNl>E?x&NSqCm%
z2QJGGA68NF_e6IxY78pmMD`zLrW7t>)XeLceN)PH;Hq`tYL~>d4sKXr0mhWZCCyLE
zVYPr&aW$PwP3hrhfS)lx#juGoy(b>jtj<=!d&HntK)AH4<J4UxZH15VfO>2KR(#Uy
z_IX)Z??eFJP7f<RaJ;wUnBy3`=}5n$zw^ZL&K^hap+o(h1O1MH&Yu3>K2{ExQ|*0#
zVU<UE20EeEeyZ~zEAQy-IeN0IeV~))(mjL~=N~y#gz$T^Pl-J$0DhHzMg@E=`=-b{
z8GO*PK~KSI&!P=_3Rim;Gcrmz4RV7eOo6|YA(<jZJ1r)NX;6VFX7qeLNHPTAlzba-
zYQ7#MynQ(mMOp3n8Y5zgFvnH7r7zZ>668`brPHuZgA&lPl+p3hpV6|EQRU!rv}7#I
zCX8VuW9JBhCa)4aBu5(wuXFZIk<6w$nYqFG1j`tcU&53zVy?B>Tg;T@aL6})@zdi^
z)8)|Qmulpt2CW<SP0!;hMLA=R3j9@It1?&x#2*SMBE8OXELV;(7?;5qc)JBFm<pzZ
z$+jyQ0ke4xpAx<|vxW~hx++HaBPq7zj4_`LtDfN}AA?z0E1fC9&}mpTl;{)j9lX-u
z8O5t^%@bH{k8<&UwaHaheYJW6y|(;ly(F(hubK_?s(5DRB^%i5)#$Z#1HCH$hxD>B
zg|v{VQ4+x#W-C+8MFJaB!+9}|E42XST8u4?<@~q~;@;X7l#MTIJfG3<Ya&?B)WZtO
zwzuV2MfJ3&;TH6+eMZg(^Yw|8_ii$G7s<zc8&mh6;SQ0~%2?CU7~%{>D=0I&1VFL%
z8gj<BK{U(kIE~MZP1fhcrsu`9hIQ$lAHy1-rh9=HmXG3PW7ryA|7&8{`g*;ZSn;wk
zY^`_5R%8CF(d%Vn*jn#<)q3T`u$=X#$rDf3SSYh<$+4{vYw|?DXJEjRk1oNc=f=P_
zl5%36Jx9lUQOV9UtrL~j@?5oJZp^z%*knC4KA1hmXXMAYHUd9*R$hlgy=dI&A7jP7
zz$F)*ffIy{q_MedGFA}qu!;%VH$pqd9d3#hd3;Wal{jgqcf<u)A1fUOP+)sAEA|I`
zw2KvA0ZuMkGb`*pIlz)<SYbzRKP&7%(!(k`PG+tN{jBEc`vNQRyWaA+ysX4~$>pT{
ztb+Chob*)(<sN6{X`F-hvAT}-j>DafW1VkiII%i^fOb<Zhi@|AxabTFU1Ie)kPO#c
zP)2|urxzB91!*#{sSGFWYCFRx3&?QcrB69BJZOmc1dW3`EyaZl7x-L7<Kq)6o^VqR
z7!iJ@wUyy2CT6wSAv-QPJ;N|=FhKy!KE(>?aaK%^JBIvF9b={RSh|a3s>v}CpjpY3
zoqJ1%eExLB@Ah&PAwXCmv{=DZ6a4I~zz1)iot1&f($u(?p$EqPE6xd44i(xp;c^C8
zAz)c4wl7HXH^VTjKl=IpWaAYdJ?5Wq4!IgHIfuraflEH`Hs^@T8))>?LyZB~_(UVL
z8Z$-+fQR{qee`(4#8n5t9WcuQpVu+ugSp<my{&0`GhkSCru&$S_PRWDCn$$4?)Sh9
zgotn22(@;mJJKC1UsjcbIv?l^H`KH0m~&ZY4IO!))z1VY!Ptpq?dH(ol-U|@pY?@$
zf1@;|RO+Za)`N7lNL8CSv!F%Wx{#_XOr|vY=#iwg37MLZrfI${xvv*(??sy4i13lg
ze4}f&D|R$tK_$)0rtM+*1HJJ^;cQ{7DDFm<#`$t&*}klAnZJtk`@@p7j9#RxL#n#O
zrG?F?;V@DiUX@`-COgvD=MN`ee*?9=fi!P~g%72w@RfJpiB&I2ttpu%CD%j?Bb$HT
zd~@gA&iILhbh)?*$(uq4zEW1EbcX18q^pdGAL<N$(s$$Z?CIF~gd3H%E*G>RU0YcE
zK(3szL@ZHzbYxjx7CP`iqnmL@+%YoN8h6g^S=MX~b^VjloYEVjeIJmqmY8(*Z2Wap
z(2VrW^QRXEzO*l#Mz3`y51&D=ok99DFeH6ptT9=?2Nmr>`aRG#6vV_IIOC?+$ebpz
z8EtAqhPH*)#g<>`7hBQpW5{qUEPbI)k3hGP$Vf_MOc@F@$~44xB18Rr;ezRlw-ySK
zy?wD4+53@x062al6=@aU$_S-8Qt^J@%wS~jXALWmvQd4bAYj&C6)Vu{bmVkOWk?xJ
ze|#b)ik_aWi%XE9I?+1c@`ZlB71ixt@S(bHr0+><rOBt260~|%tiDzes)Cf!9IXm>
zq}1AIW#mju5bK|lA+<Fucoy=|XpR{^XpaSAU310Bnl@x<L&n@mO7>hpyDuQ)g|IAT
zEROk-O$Sif0c1Q7mOYRuW@HgrN(Bo>^8zOL7pX|DfU$z({TQ-;#bhfg!dMV9#GG^H
zxP4BQAW@+W8ElDmWY`v#K7hq{WcEnR882Km*%Bv^sUa-S@40;oqA#2a($CH&JNnUU
z;4l5yabMiW^ZNA8#erYh7f++z-N?|ro=>mo^c<hIEVO*7UuZ@4jzu4`pG5joFYVJm
zn$`M_*qosLtUWPud-p;Ss_Q`dgRjD+M^W8jq(AaJR=F;XgVd$Sr6?V%`UM%QnSDEc
zV)mUxIV!A6^vze^KC>WL=>J@Xw(Vc6SoHtZ*1LVlzLS4_1|2xLtT`1Hf|Qux1AB~$
zwazJ%)vah#D>Ae$RHTF1=XJ@$gJ{<vG7N%8rF}bE7^{r;eM}}=64F~|=XanjI~Oi4
zn!bE%vGDV;yGPN!Q>g0n-^tEAflY^C$tk)G-t<n~&}2?6zTsiND*z{&p-D#?1od&}
zRHnfy-QIwU_PCsvT@)*IdnY`wN3!xEpLcX}#2Ik06517*q`gDA*_jfMz~x8p!g=GG
z=~}@x^9_O#QN$z}lrwVwR)!dbE^8l(JKOrDM<EN(XL)}LS<8G`)pL+vx^B8|zFrVi
zcsm$z2vZ54qFT!y+LQ>No;eBPr~2Z9=bGmnj3B7Q{25U`4JZkh%a-E1^K}y=zHVm7
zeErS=@1QEEX4I4n-?)PsM#Ct^iZXi0bMzob^JUEh`Ji|lv;}OFk0LK0ZsdZa1XxrR
zG2{FxX9q=AegK~dxrY%3@Ii%p@@CdD_M%TP!hB<nn1<7HnU*Kar)7?WJU5FRY@WN(
zu;4P`=XvXSO|x%)OhKX77%=j1W;JUbG2`q2qvB>E%}44l2(0?>sEMb^zM0kBw-<ae
zsO4r6>_8u4r2d28)tebDrDWiX1)q%_EzDB$HHLV)51*s-Rsc1DX<vZDGyQljBmvai
zsAvJD@`8?(8jlfLYOf4hnoLXMB`IxC$4CG}au~j!4lra;A2x*x!scNirGHNrG*E?<
z;XN{F%$b!<{D`ve(c)~KuYrex{I$<0ju2}eehjY>kPF+)BN+o;WsDZ?uOwu!MT{_F
zjue3H!G|dg{_X*mR|p8k2=+5l68^>uqmVG#(Q=+o_Dz|1N$cPXHo%)#@w{Z>8Og*3
zlJn!UlJn!Ul660Rtuk^(!pIo?oy?ak?rSG_(w)p&2H(;46P1LW@RL^rB=IK9LmD<E
ze3Q6B+BWq(#=&N~vvX>~H571B)|PDttpS(U@1w0}x%*<hHNA(_Te*93y%p}QKe56^
z$?Aps)MY1ZBwj0QB9j6CbnB5}Yj)GIy8TwT$zO)cGF5NQZa~)YNq@k4(Pj06O!u(c
zMLotl%k=(LCAQ}%5rAvCC$n`utHV?BxvT??BM+^{3`?{3+f|u+_HyHZK};8C_DkBg
ziru$2Gunp7R^ae>KQ2PJ0J{;7aR42{Sq=WdcW)evp6r3*PlX$OH;f1&R*-nI_!)|j
z5y7yqpRfsfxcfRJNF?ctCo3AF+?Q=4R@B`&(9Vjv$)NEfqRXK0<9V}&LLvGfR9M*_
zk8}JY<=i)2=A4-DT!qvH&So_1@%V<E9{)b5r15`&Y4M`|E=2s?e6x72IDRTIFmJo<
zShnn4m|Pr2o4V;kfFH_yqk(FA=jX;*4-MG&1tC2|fm};)-C*Ueei`kDUj4*vvd2b3
zu7yjP*n}`R&bL@0&M}CG-BT{gj|IW~K0OdVBjTeS(=OUKU6p@0d@d#3>o0+WAIGE+
zk=jxl|4H~VchBx$)|Mw_dl$q|aASJ>`yYPz;qkxW;@@!rzaQxHKxfmlA}>zJi2awG
z6OdD)0$1Usa6=jcaw1+hABiE^1i2o`KzaaTI7Hzb6ufq{z){QR4Y)@peUp&-01&Hy
z>_XtG!{Z(U${`=56kt9lDJLtTT$kOLo!d*frnvk8?Z6ro(p~V%9_Q%8xOoH@M{#is
z7sqkY4FxNA`yFZLXQg~LNtL@+XdEZ$23%M%fduj?ut?MCA}%!~8i70(J%oFl#YNV)
z@Ftfp<FbGM{`4%Va%Y8Rp!@sq^FM*O^L>a|F%$aYcvVtY9Xj$ABsa9Wnah#OG5z(o
zld_>?$<VTFDExNHR{Lq;?Ls804vWK=qnGEdJk(l}+AT@hg=EczWhk{<o}xUTEIGd{
zI}emwZJ$bSOOb3#SQQ<Pjihu%_jOjJv&Qw1e~3Ggt|lx_>5IdXhviitS#DX7s4R3O
z{7y=5joXpFDs(iZEQl2@DXmFSd$OW^8A_!!rPR#qjO>gFZ_4N7OUm-N^P`blBlE^z
zT0XNZRqslQb|sa&Qc6=yvZO3aiuNY0dzYb9mOYZ{qYWQ!`KbO@{XJ=8N?UqgTZy!l
z32}UCN!yr|H72!L=qKV&mA93De)5-R;XYW?j<oGbS$k63p0d>3w=^S5^RlHSqIsk>
zME5OgE8?e+wk~mXN!yl`wI#J}zuDUO{>l65Qlu`8Iq#{h^Cv=wQXsx-Nm_iX>#Kv^
zVRKX%9h^Oz1bfKK@5^hDye2^=DihPU-%i%<LR)v=lkZ7saPB}cr-Xcsrs}??7HMh|
z_K#1@D?U>u&Z9cW#O(d<p{Xohv1F=>Tuf;;#SScK$|8c4u{3U6GFC-85|t}rLah2)
zL6|m2oQc{6!BXw6TPGIDP}e^zyF&+`h)D6iZzP05J5v-Xx-Tz6@}ijiX4_ob&3$wG
z{#IW5Kvoc?kgOP|GF0l6O3VE>r&L881b|R4fO>Q&(*2cvSEMJlBi<Z;>z>NCNCKG4
zu~jUqO4qA@RsR~$*kc#t<@Z!o3wDq)b2xH1+V`{L>s5^pROaX(d^q_LbBkG4wQ%wa
zxzhN}_9D6BTOpySTWKRyhEVsnJG1rg{dl*zYdO$ztWfytLh-S3DPB~o58gF!jC=AO
zls5=B5rj<uUv`3IP!JRbMU)^Y&PmE=Ht$t>sBi}*AzZhFpNQ_@O$VN!WCI!jBc{ao
zIK@$64KS7TrKn_qj8xD?!blkze<;J3ztKFO7Ga~4;7yT|a+fXzH%?iQ%#n`mvgR2f
zDETi)PT!0bf=WseRK0+O6!51FY5U-v5uOe0qk1X(<fnSZK8%u4QOZwLcQUqlj-Aw;
zo&L{z1dLX5hqwLuUZMSeGg{pXj8>0F%MftDGxXR*+_97%01*8KF8XoNhYS2yFYpm;
z64!AwVU+=wKj0X0`dtpYO-P@_h%C(s++CFZ%0@x`@m-API$`buK=Jg+A(vk>2;$BV
zIWo2b3?D9X`?c7_v<Jh)@M(nda@#!Z#)2+DVN=6LA(wyB6Y!^x5BOA?K0{35niUso
zjx_j&PG7~vs&-uLeCn)`K4Iv&@jrFU_#+^E3_t(x;oun}9%^)<F38eWZ%3kvP-l2Y
zbVsc9q23re`begpQAU)}PS`VcBw81C+>;#$wLgN*s4h|mCx+2P`<!on_?}{KsAC<d
z+7c^|^~Woh)zzUx4@)a=o|`)t>I!!wQ4xsT(uhRmq2tl&Sj|I~I@I|{Z@y77Te4Kv
zv|zrc-yb^qP;bITjxNXJ)rp#g>U*;GtR|!J+IjL;BS01HSxweJc}?bP?-nJUu6yd?
zJPQ4n+F;&vPrc*6TWBJ1Pu=p2P#K{zhI+WOybbak;0!%IhYlUG={ZNG&j5hcrteP;
z9{6HB3E%rz8DFFEAO6A><m!amJ3`|Pk;d_g6^^<CT>jG^a7|6n=|lNAM!$v8qKiJC
zC++>%1zBa<?HwaN4|N-IMY!WZjF9aa_feA`*FJg%n)r6)AAoX2NRs4l3Dw^d>VF_g
z{*kCykq`pewW4>6Rs{P6<eTKmR{S;QT;$w}E#0mqHkaS@%z0Mo((QUeXP99k%*wWO
zyMZv6u*0o1rrS+C-kxqZXZZbYJJ)_9Bm^p6R*#5ivZrj@Qr4=}rqYzjk}?;6ZG3|y
z4JoPW8uKo*BE*e{a?MOhq+~^m8=x>O9^902O&L*86swF)-el&OWKkV5)vw4ogo4mp
zVg)x#=1P#RdPT{>R2XKQRj;VIriL(>SF~JJM`#Qydai09bfy(fixm?gQC>Uu?ztxg
e81n>XnN<HyHb9cbuO|eA*1D`Ie^<#_{XYPOTwUS-

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_339628.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_339628.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a8bb8d636df5c87172ccd20585958f6cb1b313bf
GIT binary patch
literal 10978
zcmdrxYfM{NdiVNy{l*WT;b8)SI1k<vCXY!%2oUlhOMs9t%y=BG0fVv0wF!`1cb#gg
z*t3;@N>$8g)R@_khHN60Syd_{RV_39QD!PtK0u3g%c@K_RhxgF&9qvz{n77SKjWAo
zlg;*Z!RMayopZj|`Of*i@7%vuspJGa|8nPN!+*Y)AbyD(@h3Z0dG<FXLEI;3f+p=m
zU-V7(k$hV)ChQZD7$&fb$0U7{F=?NaB&_5}Rvb<8O$)7}5nZw!uhF6%;Nl(Nk{#gE
z9pF@E_@I)Oy)SwcW1~+lBa(k~4lTD5BRO#%lW$tF16;WSTxFG7cjy}w<O5<_ZIxu6
z%lB%aSIO71tSVXyKOOw^nP&_dXv6#BK6PTXvfn5AGy=k^NywQsO`39_Vu3nL0*<;o
z?zTA{7CR^IaX^KWp1F9r`GWZZm)G89?rQ10*wSIX+}hgJ(%oh5Zt3W{e1(%i&()?Y
z(8DR(JGxt-)^xSyEGKKe+;P6At*N^uj^)xoZc=lgUV;$9@7aC@wkS8)RrDDV#B0en
zO+FSpijDB(?lM-GGB$6Qv7(f*`K;chV)IzlZ81T33ZN$AYkOFUr_gaG1(PVrS-i%I
z*u2}&NN`#7a^q>?bF+%sVz%fu>_bl>Tg0kkoD{M07$+oKfXB1>tOi4H-9xejyC()!
zB%lPF%jVz~TR7TJ5DYn;fTVCHiSwU)(<GboD7FSX{t~tXZ~(+(WOYn_%Ir*f5U1&(
z)FEKSp3;<AnQ3Zi(QTj+r|j9g`;5fcGS)CFaDBm+fTa_^C!mSwUSdmmtw?z-?8SY!
zH`>QbR-Qs5lPm(ZoX3zEFNJl&rr~9!Q8{qmZLnBc{8;h`+c`WV*yht7ccMMQpT3DE
zUrAWgzFjyKz6MUEuZ7bJHk%Q$6$-*r@xprW_WXjzvJy61xr>w}Tgk77F>Rf9TZ7jl
z+5VT5CuRXWr%BmNyUJ$zAC&C?yPw_1?~?;;1-~Bn3_1u<zQrDh_F@h_hf*X_K5wtM
z1*cJTl@78$aGf4g@ts1Z`h(0gqS`w2o6umTtQPN6=BFtVWjLMixWrj=IAv_6GlR@*
zCH&eRe*O$%6V~y96zL;*KKb(`#g;u)DZFIXQu@io`;m;iDC4`3t$KNGQdex601uN+
zFZBd2dtUnJImuhp>o|wgu(Q(tg(vXNJf^JbZ{Q_%I&stKChX2ronk?mt+|@Fmh_#R
zjxnk2*CR<yiWf<v1$F~_lqN^_!&y|D!oNDhSyao`#Ll%Ewqiv4;s{z8_p$L)4`xKq
zJec_sGXQ1$)biA&aFcmIMzvY@!VXK5F=@Te?=X|BgMkB!Fp-?dGG%i;#WC?y3>ktS
zJdsln#*4-*u2D|xbPrpZ7#vSwG%&y<;{<LyCm&~=LyTq2Y@<1m-D#mYiG{H^hOE%*
z<fMZDa@W^!Vwc;=SUK?|V6t+eLA!0-RL==7_jGgQHBQ)kxr-BawRdpx=AKx3(8Z~r
z&l5O_%X-spb#QXV>9#P_X4*E!$)Yeb<K(hjZpKDi&CUt8`G&<kFwALFAhEfrAjh!P
zLc2I!$|wxMXw@;;R1A|Q(T?Fs0%BO=)Thib91KLv1cRLbBgF-U3mmsGI6ULT<2Kq1
z{Nq=YTMAe4WR7wU4!W!$1t*KwoSb@Kf?=!<w>idvGA6kTbm8XYv6j_Aa{^|Jli-yD
z{Hho{iieXjqvm0YeUPsVPS|1n2AnQ)tXBwiPUx~ZIN4N994MHofo5&8S<4BgYv5PQ
zNdOyT9pl7P{EM234<e^{0@howTI95=9t1Z2@aNxqswbVysB7FZV67gu42)Xb!%oLx
z%MfUx+Qkf1yRBp6)zGSr8H5`Q&o$^|#;V4r%>XxpLAad`^MDh~qQ3s<k-9gbhf~Fd
zk6Iar)y|v)?(hn^4#Hx2iSHT+m1gFW|5D)QhO*S#vX!N~ubNW@Yd5m?dE2)%+8K}E
z6D-}(lzY#8qcDW^g@NBe`olgdY$ysDYmlMFCkyA7_|;Ex^Y2g2O$Kf+wxg0a)^m^e
zlv~-k_j~7h1AU7oR8+rYK}C)0*>C#f;rz0o9p%^g)M0%|uo~%WF*;+YtN|Gse6npy
z<~!$C&Q3vBZY`o}y-i`cYF6g24x9^BzKIIoMDjPi&D&C?Z}RSs166C%{b5SIEmP0t
z`b$2ldvJ9AXs~lpy1u6d$!ff3!Ya*d6;c_!t=~vXw(<%dNav+N^-?}E9$U{l?pJN+
zRrpj-)LAn&zb!xp8iSVk6YJ{z-nOkIY+YUEZTm+>&UQ}ThuXl|K<?aV@Dj?YUFt*G
zr&cOg%h!I?xmt<NTtV4ad~!T-$UihY5IB!=D#C@uAKna>2PWq)EFMOMjmt;Tp0lgD
zq0XMQ-fN-GYpDHtsDCgtY(xDv)NVrsBjG*8--!hp<3AhsE(kuU`}Ektv7f3VVnU|;
zPC~$n{C04EOA*TKus&zD+}FHq$oYetf%4hOxeKrehT5gJ<+ERwF1MkEv!S+L)X<9z
zy*}9%SWd6MceXQ-KljdJ&d<rEh9&94lI6CQvtO64w4oChS8s>j?*GbzPV^(wJ0a`v
zhRU|7vLls!W6ZfZHi^b2*Hu$KK{%aU?{fE-wadNejh0n;sJrJY6?&s5blrv;Y{+1H
zjfA(sHp=|h0)jx-JOwrath@kuLdj<+KQ*hLot`TR?p-|c^U|g6rOJn=mWNj8ubWne
z(8-Qa=i8xo-bJ17qLc5UgXX`b-rIVmSrG}L%n3->6eW1?T%WrR+X?ney{~o4kaNFn
zt}W0M6ntD8q=StMibW?fzJ&_kT9K@{zwTU_{6Z7Das!>dfeLSgjTIl?Tr3YxE@+mH
zESG;tE?0hbYNZ#|Uqr@Bp`L5s3CZj}(%14tsh&CKKR4SIsQb_oGz5m`kB3ah(4J!`
z``Gf;=rVq84qdjOw=5{z5;o)qB|9VjHzBFIOh#mc(iqVZx%nBkO5<w7TIZG3M%3ID
z>bZ)VucGYUSKBbCeGnB4z3#2D8`cO#fUQ~rhS{OH<G~W7uUTqbZunBW+=%L%L#<a)
z{Z*vD>Z7(mv2Fgg*`@$BcQJVDXO<<y;?Tm6mn&Dwzb02I(XsQZedt&(s=O9@Z(u`7
zZz_k7a%f|CWOJB7!_2zU<s<pyHo6`41%ZZ-wSh*YFAG|bzH+e%=??p(m<nFL-hd@o
zHb1mTE;j%1xrgVLIv-tls6oYz%i86x&vRF5S6qKJ^~F@^N1cCp=ZjP5=#_P4myb-^
z_0(K(P`ktaMJKK!Q{UfFZ$AT{K`>`=aTFKFpn$-Ek5OWd&;{;wBIdB6K4zJUdvAr!
z;kGh%tL2uJ=A<^qxE-7vCmV1&Mka<VZY%g!t9ycR45Z%l;Okocrt<@cu<wcPW!=->
z)7^(Wc?3GrpMDtgLDmPl540W`OJ*Da;hsnCQLqYDHd+7<P;j33U6Pgib@-ky)*>_A
zqOyWa&;h}e0LRiy7I1_^$+QRexx|<TN$`{uG|5Nc{H!QFzvym>UzBOK8{~;TBN;Ml
z9yiawJE1XFm@)?kU1?7|6KASf;cr3_W~<UrLo<Fe?h%4EzOSEv)%m`D614q&{Q_3%
z%68*ulYd4sWiN@_WCz^wdX)T%!wNB_Ft>zN(n3~|ywS{*tFXlLW8%3E+^^^plnwD(
z^35vZBRwj=$V>UMd|IDwP)Lj3r#xzh)F+Cy#kkE%7y&JDkhIjJaVPHhSv59%Rtfh(
zpbNj~6;@cl3IQwO*Ma16Ryl$Zrag4xyTA_pR9uoB`pI4TWr==b7y6m|lk_w9C+TPI
zPtsTYa1HuJG%-Q45|&~$kL8bIYeT}SbP*;+2ZN1{PbjMf65n3{gsl?W$Fmbq{Go8S
zuQPtwD>R80C%!lRq+c*71R8=4K5v4gR1%HqIne-ZyJZq_qDw8^O`JHIL`kCQ7-Iw+
zE_`Aby<RWV1{IDvVYiIkpe-kF7hA^1?bDDm;xw}Agxxt{vAa$}CEEWHp1TK%Uwes<
zZaug&e`oQ?Qp2+Bvs3FO%_}{tt*E$*X@~yIqQcqvilUArjyOOOd+6xLJR$y+6H|pK
zstR7+3_cl5LZ%B|Og9veX%Ab*ttJuEgFzQ?(TfWs6whmfxdx!!l<`M+S``!-mC?7^
z(t}!hLRWiH%eBz;KGf0|>c4@C2YCHF#qvDm6JN~cQ|!A;lJ8H9O)91jhH+xrJv|N=
z25@ZvnY<X>CEOy&ZIGNo!s`HEDe1O4TuufjunxCvXu>%G9u^Wp_q5q=8-<wzPRIgz
z#c&#jb;@lXcTQRv@XY2qKIen`1pdOnq)&6=%z0oSs=14}b_o|9xVQ`jCygigdoidK
zgCub0Fh1etCF3MRa1CJ|<IR=1ipM1NkM{yjgx|wO>^Xh<bksnVsb<NH!q7?hxpLs3
z{tqt^$ssB#KkZ%UMWVgl7T=NCBZ0<nVabE``F14A_qO|PZ!59`xoZkzNMsBtjA4Z#
zAX!rsheX98MR8c6o;m728W28^&C50vhk~6L)tcf^NOTDCWk_)-3<ya7$v|gf+O||1
zk`{$E`J0*&q$&C2jZcp+9ADE^g{Z2Krs|1QJ6rY1zE2M=9NLgphc!i;nlhv*`()zN
zI}3N#G<6}WE~Kdo=T~m#*Fko>p5Ne8LoPd`^eca&=5yGYDu30wyujNG`D~*8&Hn1&
z@7YupAyrYpvY|3Ab$VOFK&ov`x@VycGFzW(_Waz15U@lUH>nClRRnJ?>K8{Ij)qJ}
zQRT4>>i842VN+d>)aAjxb#;xmjTa>U7uqhr<e#(yKFK%wV!tKW<ZXK*(#}?Z0s(E9
zl7%S+|F7FBC=b5-Cp~}K|5^V=!5P1LRm2a_g()pmW>kLFtYw|bd%3!dPnWbm0o=P)
zvvRje4=#56S<7Es{QTm2X?s{#7(5%&?GGDD!n!@-tlWRC&J#-_4TMtXy%ar!z(x`e
z-fMh>_-iQd6E?yF=P8Z^J)}qA5qd<lz#~q%TLjZef3S~bg{+7cJ{CQSMHL>&E_2|^
zEG@=gUHMs<19&{rSDHm7V;S%_Qa14|2jW;+rq~aBhU5g$qow^o86sLNC*>hisAIjP
zJwpU7`<UeUjcLK7pyeLrOK3=*&`<2Z-c>)!SJF@BSuf}ZVj3l_c&vOBi;KTUPbywd
z|K}|Nq*XtP>wage(EPuVHtQv%)naK`0%9dy2e^M6kv;W7!Mu%Yr*UC~0^+6#+5-3f
z654vpHelrkatgQA<u(skTvl_fN%)k2Ada8MIA99%4itbA?~|uAE><zrg^MvLx*-7J
z1C4~cOvP6R9}IZMnL?u;VA!Lkj%zT988e27;To5A@D4B<3rO6&t2e3OR@v&Bu)AGR
zziNchQRh00YuFX1yK)=AIHemRJ$o$mPIBtPK}p;T^Y5r1*7CY|&KY}P<X7->{U<2K
zOKhvNyloLBQBj}bjJLIV@A)T`YDVE#%(euM1dl8>E+5&T&Ul-i$Tc$u{Rd|U10#z~
z^UkHg4f$K%<{hA_{6J}-D_FL!s_?dM7nMEepYQj!`7R+*0g&8RjYOs1i?bDh%59~}
z+ww%4bH8w|aILszIcGzA+IxOmYrsVcFBgLqi<Qe28&p%0lab(oC32w}pz@|9Cuz_)
zCrbxb3qls_hH5YaL%&rWEEzUbNB+BsF1j~V4KEOd%V52?gLk<Q!{V*b(b3x4YSQvX
z8;diesY#U`K7dWYcM6V**BJc85K@=vahqd^!48ta=NBg&vAOwcAD7!YHO}yXDRYDG
zfsmII-EcbX(Vc)zkW)nM-#p~B(+>%rnRs$D=A<X=)|1RV7zaj5xUN7M5t1bNOG5eg
zgz6VW;Xe?2w@K-}g1ZF~ft@7#$w)Z?H}n1e{>Z*)yMibwePExrM=GQ3{X~{-hV`=%
zQ?z}6&>66~MGi*WhvNN*qwT5~zF$@I?Po$lpp4TR6cRPHVbkHTu{@kt1UIMQoIT&_
zTS!tDmMZVDciD&#H{i3yOrgIpBE}84{)MfBn^L|>5!nTSvcSXxcAgCt97Kjg5gFeh
zC$#y2><5MOg(#~cqTpdl4Aal4A}YSACUiLw4PVV7)Vhe4uj+^_LxkrdVjv`nd;NF&
gpJn5oXZ-?#RQ-zTCQ1Fb;{rlsTvwOgRq#6hFa7|AhyVZp

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_344391.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_344391.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1e42e76c5745d1b9d0285962567585127758c5fa
GIT binary patch
literal 8238
zcmdrxTWnKFmUaES_VxRfciQ2R;53kD!$LDOuLKAXmI*LJHjLYydlT$9w)^@9NL1FE
zQA^mpE#XK#iqX!f-SaWSEG=zX>Q&RyO2d9FtNHQ8>5ca;qs?geiL@W?VOJWB_G3?7
z`#J^;VS1UBb}w<&sZ*z_PMve=oKwZG%w{8k&-&rtT;ZD#`YmZFUqc0W5~C1WLM&pb
zFd8q{)Ho%#RkP}G4MlLOuy$5AuA9}5>nX%hA)7MIM$M`@O~|p)Rv=bWA3vpGwI68i
zR>;PU22}fxb+S4Rg*?hE8#Swc0iJ#V-oTkyBlm*YKrD!5UfOGdUXx5`=FF@GepdL|
z>aRBCVeKDi$1PQPIzB+-Ru$r`)t%brDW7YdY-rS{lIXKBAsCGW!jkqv1OUl&<n-C2
zr~G3l$A|o9B*V!u|Io#uQU9q)=Y|ZB9$+>6p8O1;B_x0j%U?*PKpQnn-L3Q|oSRUp
zs+6uxDAiR;H+Ev(%mhL_HIJ|ho2#(;#=e?aG#eZ#5LRR70yL^~d0vg4RXsJT0XJaJ
z0@!+@G139tFbi6MJy>(2ag+HpPp==LFq3G+ZroVig9p3GT8SoXWYr5G-9&TEoH}JE
z8#T7$=DQUwBw7T6(!)}?8MoXeT7&Nx%BU{S!)&d%wPrr~yp}1H62`SC^U0jF;Wpen
zLpW*2?!+7T4QwR)#cgu07gN|PLmf5q){}h)ZvRZ9%p5W+>uuCR6%1LbU=^t9Y|Aqo
zY{e?PRpwyZCLC;gO&n~;HeQXlGbphgTls&-O;|5W#D!^66JA&~$fp7)Iya*z+gGAX
z8C7m$qb&6uo9qhVPO>82@mi$o+jO<A*SK0Y_TeqE?7H!GSzhE+y$M*kg}ckWvUYdY
za8@TCU~NSXZ_1LW*gaM2tLl#`?`P-JqcYS-x9e%GV)b=3TJFQmGPhmi)X0)5YjIZ%
z_w`PPqQ%#9MqX8myIzaU{AsjEB=N^<k?g2CDx>-cYY=wGk;0hRjSY#O4G)QpxJU6v
z$IxXKEU&k&&U<Bz_HC-cK0;UZQ~fpc^({}P$Niz&NL%rD7=>IFu%@b)pD61oJE71=
zQyMgneA-c-goSkyi`NO{qa@92AU@+WNh%>M8Do5Onh(tSgRG<pM+2;+o()DMEgy(X
zbCNDlu2n)*(oaFRFwie)<3f}teQ{wv#z|UMu8drmo8=;cUzqm|NYwWw_0h9ql6vgq
zsAN2P!9O;1?)1>;n50(#_1O#OB~x7BgDmHNFCa`_k<67=oO?gaMI@%uyutxj#!7<?
z&Pql;Dg^j>zYNa?uKOzk%mU!Ul~!ERMaamwWGHw0`KZJMBLc^VxxiHpwmTV(gm`ez
zh$j(MGQ@&xg%g^9^150A&B}B5<FKkA>0vrQ7hxs3GH+0#qf=9HP5?UV25bH+f$)^1
zFDF)~Bx**|&VZD!^Ca9#+E_FW^!iDt04W&>P@blYyb8&gJ|2vedkLWQ5}5Sru9Lpr
zO5G>vh+6&qk_vFD>wS_YIw$nXWuIh_`(%#j8D%CzSzbhp6zH9>p@xa$1Hhp7kN^H~
zq32qZpNYo;lU&c0z~oFoxDt)*3QU7l^u+ne9)X*U^+2nqA|wHfD?SzFXLrZu{ebs_
zF$mF!e=-UtF)%ndu&)n#By)v)hT|h#m_GsBkxVrHcW}a!=s#@8?p!i2nzMm|&6_;=
z$ZEfpNGG!A3f4E0CmxwBx6Y)`WIGC`*5uHd-j+H2Q130$mZIL8+4E4}1mK$9p4YcM
za(R}HFCNd1+-VY9`wOmtl;M%XwbZrPmF>>Wi_N{uePZ)q!SPl~UvxHSFNx01G`;3(
z%Na#icgj#4*q<L5{<wc>@8aI<-rOazW%r7+=fOydUelX0^h13kS;^X%eM_`@lPA_Z
z-rV8EX!7hMi|y7_dMY!Kd#7L-NFIM=c4Yc8(cHCFb5DvY+Uy@6Svt9RG8@P>6kI;h
z=1XadR#)aPMQdkDvu1Nc)6tOa79HDibE0D>Fz0T}?p?f`GFG|2Gq~dDU3CnIj)5<Z
zd^z&@NWt+=O278)hW!g;EjF}guB49thVc~LZ8@{(-nC5Mdt2-s7Tv=S><=#dQ<Lca
zZff`?o%stFMfXKQ;>o%fFXilumviHyyC*gL2z1%7*pRhnFWzpx)45{rTeT00_Q5Z{
z`{nrO;|2Sn)R9*pDLUO*{o;Y#mfW>ZcZ$y4sbkM$h-I8epU8}5_bg822JcLLZF=iD
z+^XrVwdeQf7Tu$D_eVPN=iU|F??QKDTh1yr_AGacjR#UEpXPeoioIvm-Y?qwzv%yR
z|L6M)_JhxE%(r46T($2N?R)=T^-JSd#)AE5>d5okcpmfYCfKh{1JB}utEN9I4N=I_
z`^^ao(RSH3o02Drwq`g%V1oOz^Z#u2fdN`P**4MAd8cvtl<0d$w7he_L$n-CsfpcA
zr>8T4?AFEUf~6fWwDA_5rZdh=e6cBe^pla>Bf0l~e(lq1t6lrVu6>2p{a@2>f1^j1
z?k8}1kwk&F0jDRa!JmP92d7$baK_2Gst+g57Ggo1?|>nECmE*?Mq*)bF_MA!@44xK
z0I`VYggHJkS$mTqw|J5RJV`>>yJ@*;y=hxQ5K#g3>^A|q*oT%6Z68__My$I|#Z?r-
z#)J;*SZV=c1FM?Z0S-q$0vWw>qy8ZUnS*=-mGRX#1;A7F)=1m1ZmK*_3(TXfPxaS`
z)unAv>ah+=`X~CD^;EAguL0Mkdg;7$+#^)7C4@qC^HL?hNH7r<MhQkB9$5Z1GAV&k
za3PZdZPc<XK@-YMtWn8TSVn;orj#XRP1&Z@tmy+fVHT{)cx)zbAsE3uQ-w8<<ujm3
zyVAQ+v(>kR7xbHz^<U6meYJQ&zoj}J^pv)wZREa^wt{x`*nmy4O@OU@X1!a<=fIMf
zG32w2^5jx3Cu0i@8(D&Pb}lY>-{ZX8RW7p7Msf~_$5rgX?|3(87hG^&yzwi680Vc0
z#%D>=wBNg+^<Is8cPyxOdL_!Y;DY1y9L+jOJ=YIGF<E`Ifd)|`Ve`oWD1M|~LTM_k
zs!3Q$zWB_SR%3XyBg#;eHl>E`sYaDd=L|eA>B@l|GAuTD)u)j(XNJxnmb7w~$8UqN
zlCE;DiLrT;$s~WAVCe(l!0dZ$;NU`gAQlVHL&`=Hz1;`G(MiZl4gyf_j{$YO1&ZG%
zQP!Q)eWv?c<`>NJ@V#UAo4z_**l}8HJj0)aex8P6ofx-|lCwOY0rFQOK}ic)EF_&q
zNJ@lxe>e!~1$l6Q{5No&zeFHwgu5>IW6^6I55CFYFQ*>Bx}3B6?EDB2@ux^}niOY9
zF-nTFq^No<{?AGC92AniqF+f3xtW}LN}6fNfO&YxLb7D|%K*iRWj~#O9XfQVEF)8`
zWcVNuUL+$HK(BvDqEaL3?E3llKK-7k*^(Se?aA!P?k(C|9@;yz*ODV^j5|xE4`$Cj
zWZLtZeR=P`0+dX9k#S@~4;gP>b2z`{Z~;ojTVyP^_NDh_J-Oz5<Iac7&b%g^?>%;Z
z>>n@v!=?MD9?a!0{6+r!M1JB2d4DkfgHS#+liwXK01>nEe=_zrjN_5TxoT+_E$!L&
z3zm+wdd*@@sUJH%AIE>ZXSJnIZ0TF>zE6GLQ)oGI|45<X_yb45c{+Le*UXvZvBw&F
zW}B#KDAI-^&B%X_B5jocgB+jie+B4GK^SBy(&mgV4ORKiStNndMY6w;=-lz2T`sMz
zv=f=E$r0JsCP5F?kJz0YeSQz+5(=UO92*j65>!H!P$x93DxrP(QImb08f#cJ+-Au&
z1-^uClQAl+WwqqRP##4%Afxo(Y7{M0Rt3+i1OG-Vcj|-z8$$J7At8DZSHkKiVC95S
z-Y1=)YE~z5dFGo&tl_7W%x}fvBpBA1Fuj6=jPRCQmQN*WZ7Ltrw~|l&QP0T-qLPVa
zJ~Q2|$mS(-GRt!MKW`DRTgzQV_Aj;y>;IeG+FoI|cCuTHAS^mYeHuCLuO|VuP6Wjh
zcfIa~0>a}Q8-Vv19m`z}PI5A##0Xqm@J|NfoWIYfUPs{9`LHsM_X7k|l5?`olHvjB
zdY=?CP@MOv%MoY`!N}=y&3ye31LZJOgBt)GiBGlb4*KBvhv3L75F3$$4F4`c=mf~c
zqrA^7>3J?b7Z&2>$VGxyIebkKNDh5ZM@LBq5id3;NT%9Hnhj>-<i7%*3VG#lXP3qC
zRLsLb`6Kwn{|jW3L~9mX@_5OFItOZE-kRN+9C=KeZ!u{mGnCzv+jD2{y*(@Rk>ugW
zM(eFN({E;`vY|VNZ%3D>R*c_C9(@7U+?4Iej^(x%%$>>MwYIIFOx&JG9#5SSHO;W(
z_8w8wkvyI0%yzAr%*mn0cF$7lV(Y{9-g}-E`ymLpb{8pXcsZTxywi2BbA>*<!AU6B
zy-a=D16bqX4NjiHDx55LKWNSexE1qM9ftm-GFW!4nD_i|FM3B<F%LesD2+_c<ft5V
zeR}ycjE;^D4-Z39Mhv%-zLm4k-C=mjoP$>=iB=$<+*H7r=VQUhG*5ygPmZRf4h04I
zS{WC(>oLBP@12)z9^S_yf~0vb8V#2Z1TjO2DIWv>bTrKV0+mzFN-8@WW#_`&LH;Jt
zfuW)}17%4~QPgjd>0gog*QoX1(3Ukyf3x{Ub4hiIq7Ia3wD0X-n!YlX406+mY>rzv
zjep0G<`XqinJR>=3N<tqeY=XC-9_&<cxx!Snu?y5Z`}QqwWv4U#5ZtB4e*-5a;r7n
zTG9es(jhQ?($bR_jqI+Hfj~xNZ_2tqX}#Sl+B!=NL79-nli`-ai(%2cwPYqJ3!!o@
znoCyFvLT13WG9dVSsW!Nfn3PuDiID!9;9P#PTZJy(g3X|S1Cl9e@CCEDCajZ6|#CE
KtGmI-!uoIP+BZD_

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_373163.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_373163.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..088911df35e9c00741a1c1930cd97d4923a547d7
GIT binary patch
literal 10654
zcmdrxTTmNWcHMfmr0&*}w`}9F4VH}!7z}=mJ&X-DHpYwb17kK?S>1p@NNh`Zu;;2q
zQ#D%y+0<HWZ58s=Rz;Ja;IXTQ%oo}GIDf9>hc@g+={U6{J3s!D*ZxSQQk9(BQcD6P
zi(&0lB@McL&bjxVbMCq4o^$W*e`FXV0nhJ$^3CX{`v~F>7*U?G4Dfn^B#3!}BRJAe
z45r`YASvUj3H6|cBzSU6=A(2?zd04J8Kc+JFvh8i&^1Nq+9Gsa5xTxGeVFE`FEo!c
z3JvNFMDC9(;|x48W+|Ypu?XE%giiAYjww>d7NMJYBWHo16@IqDZH673{R{1&DLW62
zFNi@}MeuZXM9e+XRsIqWp;yvf=<GP>z9g~T{q7qbSGzkt?&)-2x*-|PUg^Df{d~u@
zPRZ2Wd#&?oPiM!C&U2Ff<DM&LFS#!$z-4cBo-GUjtKs)r#b93ugGZ#FF_i-4-W>Tj
zQy-}=(Nd+fM3wioL_S|lj-LW?B&vLzk#`@6k(v_R)miRUTjE}|j=K}pAjde!i|jy7
zWS60xs7z?fld4m6%e|2XRb%ZG*^yl(+G{touSL6%Qy$;$fDu(AJJwyHAbX@1w5gS~
z`2bbKRKf{P4YkmQBjsLuvbajd_W}={%%cW;2mXGh8dg<-hDeX8xDDEqrgKE5hEi(s
zbT2$34o-a^Y@}Fjg9L-ZC$et~TI_xATGZu@r_kIHXrFA4of|aSv3^|l!M{1p6YXQX
zCg6$Gm*iWwEx!BF?hTrlutg)TO>{=4A3!cnou|u|<_z~-KR!ff=j|Xm@J=|gS&j|c
z)=~E7qM9Dswx)&n=JY+BXU{@DL!yI)=9bgt`A1_39xBvOkVn3cHI?8&qC+KlG?(C^
zLWfK8I1(cRe}OXVKGL#<b?w~X!&{FoEk7Wxw4fTS`v(8W#klvW#dhOL4Qj!We7(-^
zEV^LsLnXNvi7|PeQaFkfo10whXe}J2w#_-WCXeRvD7+?H3;J>Xnk<#aRp@9z9{Fps
z9koRoQG28b-p%kng35(TRF4{Qv_tz*Q#R@yL-i&C9m&v}v-IPE@=fhwFCBsQg<7Ku
z;rFoO%rc*i`P`y#{cK}Cw<<Mxb}KxqZ_np8g-_(f7PQ!y&)>ZkC-cTb$*Fi<fz;@P
zJcq~77Bc!1y^_z#{GDiFz9(hA$A2i_dqiowp^cGh%Xa&$*qSUfZ-wJ!)`zyQ1uCt@
z_UEl=#C#{SS2SYgbH7Kps9pgdL|)=^&Pxo9D1PTsNty{yXk5|;!=t>Ap{LHcNC6*(
zU0O*M_DjY|Avhv<Cfq(w(s=|=V1$=6{-B4Gw4rcN;9aLAazIj_z0xnK`@4H3^_A<_
zB;(oZ?*7icp3dHWNv{BGC@lCm-aYNU;|Y65B_@lH^1#lRMJMv$amk#ad);Y3q7_0g
z<epfEjc2itFOXM<v2n?g=@*;|XEab)V~VVU!Wt8DtT6^w3b?)DX#ww}1ssqBh?|6f
zL%N{H1zvoTVbaHCm{S;(xoR;qA?dKO-J_W|;NB^Bi2tdihr;dW0}>S+9uDzXG9@>~
zl?*nuTi`u@n1JaF>YMP4$SCe1SIT|em@et2(-e5ixB<8E%C?fhjA;}qW-ZYe!xcFU
z_mKN%>tu|=bh#CkZ7<W(wU{PDx>1jR7_6qx$VmfGEvbQnq{a}14V&hLp`5fVU6!rX
zg-(HmYyX7jKd(1_5){TmlO8YMIO_3^d%~l^z#-2F9|$*w1aD)QpO|a}tWgMtJ;FVA
z7~DNH926!FPu_C_9SFW~5d0trZrsw|(%jYpH4>9)KF$jP-Y;APHL*v8oZu2s;>`)d
zYM*E3n7C)fQXB1lVYWVq%tqpUE9PB^deQ89^6|IbkGdB<OBE{(9iq7-df^4lKDa!4
zIlg;^cE&#u>AEMjZ>t_vEjBNXthi2#^yz5l8dDb6iOkMuSCX;CuFw8B+VyYxvhP7s
z#au<aI^h$m8dt1MGrAWx$9(-<eY`%=Emj{|u^pb#C+$`7&biaGR7yuUcEqPd``!c;
z4Kq~IRxzVrGdp6R%zhTV@b7xtS|v1nXh?KCWM-ITJ_3E2@;D31CE4;=_^ZCyCnCEm
zaY$qvU#Ur^X^pM<sv{nbpBLG^iTfhk{7S20j=a$kFnr&vFHXkW5`7O(uCVnBnr}P{
zdXa5fJR!0lzS66i(<wD!u%_7eE#ZxY0PA3bS>po_oeN#xH7|0D?T@Z34L`m156w?+
z{%uffxV(IQVAXmHESWLxR@#Df%65F!m(av-ijI8?wCHG^F(e(%jieL>V@#SYzdAC1
zeC~L>FQHr5{k3Vu-XNMA7P#*^7Dhz2ZOJLJo!F>dBsNT0%J{B3{ZuqJE$;mdxmYi<
zCzggpwi}DPxCL=<?fJ$?ILhbS=i1{f38z?dXtC=z%}d-;``=u7*0O59GDE$vm%Xp*
zKc~R9w#s<(T+NJ5HuGDZ)&9$lSU7fmHV_A2bzxsUu+CRk*bfq|-&hmvB71OQOk|H?
zKRv$DPt9d<N;KCd_I^Xc(q<1V{21(sO?h&S{Szb<_tWWTb>f*HEnmIyeBjpd)m!4}
zL9t<Q`3}Eo9WL&$)6d$(GkwebH=o}cT<#wfPu~_BZZCU>SFIyyQ<eR)FRqE*6zLra
zTBI9Zuoh*>t}}yQ85}l)1$*VTI)ax#Oc<FRiFxDa=Oz~FzOyc#Tda80_|(42cFw4=
z_~Nx|_Hu|@>x)-9g0ikbl)HdK+ucP<tUo5&k3l;}b*w!;AlmmW=oTx*{l`W7@pKrh
z-rTl8f6UmvMwcyD?icC(>jGaR4skHkN7e;CB(g2onOfI5)26_8N@UMqhx#b9;&9}9
z&obW7gu(QHnx$g)7!s{}5(Bx_`E>Z%wdeiUp56TWpxAo-x73XnlyOT<e@ESr^TOM8
z&#eS7&p~XShIQuI>||h?lj+cxXPHfl%`LL0@DzNQzu11Th_@PMdim;rcz$4c@XwzA
z#Iro;5xee)t#^J)dEa88>E-@g;`v+4x82V@cb0G85xcx%tM_*l_Zl_{ghWmYXW=cJ
z!w3U=KG+JnVb=sZLCKijA_65OZxdy}<O_s(!Owf{@|>ji1t$HlpOFmSU|?)rNv
zoxq2ugn$=+3Q?X40OZdizkoBqJY1*?DntYvd52PbHrVi>+@}EpBE||F!-s$tF-A-g
zI>I0gM@*5^qyV4UkQT!cmLnr(P8G2rV;FCV<Y%nVG1Y|3$^}}9mNc>`Er-<+YuKdl
zMOOJ!0f9)QLI(J_p#`1cBhbc&%YAGqT(40+h!p9sEm5z_*0X|&(*#KP%t4mWq;P#s
z6IF@+h3j+u4JG;)t}oR;XNki7bC#fo9f(0JqL2=mk%iO$TK5YQ{KU|YkEky{f=PN=
z3x#}G74Roo0Z;5p?6WT2+fQ9Cy`+VsC>$w`uz?TXbNhYcJRDC)J(I8)(tCDE<K=vJ
z<-NJ2OCJPXHlYX0$*w-(GDdrGaRnDY!bKl0u0kQH;UFSu(`Q!=KG+F$n5@GfoOD=U
z$bHu%_&j&~ynFm^-l0%40_Wb44H|Dgya?Tx2kn`h^xt!*&k+I#q`!k-=nNd%qr|I9
z!csB2``4ZS<ZKX~4GVoM&c^6jh_fH;`Rj_WD@4uCXy;6849){UE3Zw2m&*=5FFU)a
zUkWcbosISa)ohKPPqG#$XzQ=q=1<O@jE569SL}zL-2L{`N1rYoeOkZLcyZZuDS8ef
zvDOybD{3l|lp#r(lz&^2G6O|U1J<7dxdiynOwBBrutN6-##v*m`RB|#2APzrMypF5
zAS~s{ihW62P13O|X{mt!*GF;134%69FAA5ykY4y@9~^z;NcbO6&J#W&0-q!0I7UWP
z5p_fZ@k(1FF5(EIhIprbqIrz30pN+~O7u}dOw{5Jka91q0q&*WRxc`?kqTG0I;2OG
zavc~kAj4RpYi5Ge;o~!>9|Fk`vGF*m2$?6nKvW(fIKy8-^ny`lvO~ng86)%-EM&~u
zCzCZw+K1kjeG2#5WFKTgG-rB3KhD_ZEp}pLJN=*c2pBE<Sh0O^uQ30=8LedtqqXAE
zA_8)bt=FYVXP79EUSdND*Ku(J3P=`HoX15<I*z~V^YU^-$rR>8VYk;4;@!<I^-BVR
zvwUfq?spUV0ZY72UUIm228A$=i(x3PxzuuIk&F|bX?*PmTRAzw<g+~jSFdua$rIHA
zG@OI-+qJs1!T_de;ev__$O%Ij!~|U!wu(W)#YlRA4^8>QA;B%v(-I|J0B0-MOyU>k
zgPYdO-4(zavZ17dd^ZUxj}F6am|xLZPLBcL8NyqubqOt<%dE1Q)+Mx0q2+($F8?Jb
zv^AWGQZ!N5B5FQ>+|?Fqi?^>??a_<hQ_KU?tSQzBmqTp}?MrQ|)W^||?~UdM2WJn)
zhT~%k9S?(x!>h&*qi2gynX35icz<Hg3R4&DTHCSbFNYouMbFP%7B$r%a$lpU*&XeP
z)y3=AXeQeEy|sMaIp=)7vuUY()%sEN;+oZgi#%O=5_JppOLePMM^2Nm#DPWf>qej&
zJ93(ApemXy9(Y#0?BQ3L;Q|W1R~sxkR++Z{ZJ`U{Ri<^5P>P`K(Ox+l!*&j@lHT5~
zt}YiVJF;*a2$DIyRXgm5j|@|AD=Se7B(S(%J?0C`=bTWOpPm#lo4ISU$4hEB6-k;q
z!Jt3A9I($xrt~6kj|BbPBSMy*c2erpM39^E^QVQMK|B0yB-8?BN==gF9|-zi2<Bf2
zCv2Ql)R)ztSEp2yDv~E*ufdof^vw384yN%2qO4-RXRar8D2*Q`EVc(|7Nr`~coV)}
z1ouicr|}~MTxAT+4y9Vscxwj#<53xZttM2oA}gRJs%w(F_9UIP$;ur`M^&=C=9Rsj
zG$-}+m*{hpQUknZU>`VVohdEApe?KujOj5(5sr$K0YgRtoSdGcQznej1Z$UdU@*oK
zw(^u2Ll%OyrK}jT5f(=ZOG-Hio$1S=&xc-@0rvVM6+tq8q^^;q{nez3FxRfIyFWL{
GM*Sc0eQT=#

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_385268.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_385268.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..da0141c6e8a9845513af8877bba08da2393c2046
GIT binary patch
literal 11620
zcmdryZA@EPcJKN7`wN?If(Zn0KKKp^$&d*lgh}`s0we<=@fbft48|tUhCuqP@w8LL
z&aR57wvE{x31?Ml$R^UTQl(|8N@Z3f&1knj{4f=sS5{56QKkH2Hf?t`YCApm*$+El
z2#L~B+lPGLz31F>&$;KFd+xdC@@u71hQagqfAX`N>%|!MTh!nlL!$EhUvLb&j}aJw
zJFtQH8y~>gHgB9iAixof=MavI21MiH0Wpr*@KFsnO!7_eZGur<vdz^9!7gy&E^yH<
zaPcm1$u4kddib!4kbNY0ln`$~CdHC}L>3{pVWXLx?8!Hw*afcK1+KD*ZM)D6^KxKd
zLTwYJr)9Akz$)09)}|zM@XLUoK0U>-o-lkQ98hh2#mtYe0W}Y^ski2-nZZrj&(MTA
zO*}@@HQ}+loE8To>~lhe5ua=CYHl;PG1(V;%snmL?Jb?=t_v4>T6%lTy)B(RU6&at
zV6HS>1`H#=*xB0xwWcdA=NV~pSLda^)~4PTZj=s2eYvZ*>2kmM{KXFQJ5B8utOt^+
z#KchN!|(Z!9GRX63^4wT^0->^P2i7tj}kq+2VT;bpVGJRC4B`ceT`I(yO0ujizu8b
zq||qW7<LClpp2B3t9uVp7~tew8*oal?k#p+PT?j<O3&3O0ab`b+?q+r{`wRAR4S_E
z4lHO^$`VS$ao-_j38hHErASE~pz;xhDjFNaFcP1^I7o^#B2MPyo4~33M~QEP<nbPQ
zY5y!ja0e(jDsL&3P3ELfrPGmcn~utyJWA*-qYhDJEZ6cBdP!0`u11wp(lOwP-k>+o
z)FWhN@OaCq+#t^_p$<}qV2NOV$|JD&B23X@DZ(IJ0;A(}=r!$4M-?FHcBMW{@u>1`
zTr;?_sqI|#9L9Tu;_sj{aM&GmnH<J@bjKWvkXF3McF+{C@QM_zru!;Kc1RJ|a>X53
zm4xuIh|}^Ytmf^HXA3Z@*s5+-wpK&sOJq2@rwrmZB16?nWH3?3sQ8@U48Q7^@H_m5
z`PEQ)B%i91W8NyNnyN(hLe)@Jtlc25QVUSF1yB~tuDQAtDOFn^ZmU8S@36L{@7ZqK
zD$Yi!T5fKSC7ku(sr$eyb4t4gll<z^@teU2LCWmX`@I6rgCW_y$6u8q?!UeDdwP)L
zyZVm3Jx~3vbbI=o{m*&Z`1|xtuRZ=geAsJ`9rtx7Qs`gB*PZxZ;OpWtycyrKA7A$-
z`R&Koy-9xGzpvZAhLgSr`8sxPZ^+keU-d~&$jj~EG=rI>og@n0OgJO3OxxYhP&EAv
zK}O<!eDiHM5eUXD?lDH_^4zqM2{<Al(MiuFVR#+~Bby*yBcx^AY$q6j!(|~Dk%hE4
zM{JDnHc;81lZz1#1IANZ!wB6T7ilw{WcXcuy$t>y!*A~DVfZ~4I~iGXU*e3>!>C?7
zY%n6X?UuvlWJJ!JHVffqWTeYuA!p2leVmcTac0uRXquav-)S+owe%-OVl-|KX(w!E
z*QCchWbs&UGTIbKV$@Vnf`Klj7h;JRsS>d1#7OF`c4C|)ATbKZecH^8!LhQs+~x!o
zH!K1nHe46C-MPIB0znrNb{&jFTN8;+O(Y6?NhvDO$(}?J7bBdo6J}5jdc`L$K~*FN
zBePDD+|a^l^Mr?F#7IG?g0yLNgK|9#j~r*j<e2%U#WBo?T*Jd|n}-pS<7TUy5lvUI
z-9^*Yae5>@I}nl)RYb^iKms}YPK?5bZVVr~Fudt1_*FAJ7rb57EF;?#`ozG|MG%aX
zr9-^kCt*Uy*L=S1tGw+Z$J`SZtF7{;#X4s3+;lmQSw?J5Po<l*R(fpX6P3`aOqi4h
zjMqKvBF8HxX3PLLg8_M5PP5eoW>kCfcuoCDz%a^0_c0skv^mIj5D|R~_aXQ!KI~u5
z;h0iA+Y#sp-C9!=`C2wKy8FsGWw?4xbI5mbL#>_l2E5^-HFb&aov-Ekm?6(Ei)pmM
zi(wV5ub?#*OWDg^bafl8Y4ZzXIzvbrDXF8g>u6ow(sblp4}GGC*7XF$PxYDiTjyFs
zmlkvA{F<n~)-T;KWZl0ycQrJyXrc>hmn?L_iKyY^aszER&+$;x`bt_;xm3Pvrfb@1
zP5Ty)<8=0MT6cU|5^3(GPxjKfUcWddR`_p!_(ACKs<<R3QN^UHU{;{;<C=wr`G#=!
zqBxpYMN6xE=QdQDS$n`9!b2y*mif1$s&ZfJ*W$trZN~kqxvbCukSC`$s;vu%o@fjG
zqL@Mz%nY=FZWOB7cLMJO`$GM+p>$EWII~>+&>K}W`dS!yW=xwI(*3w8<O#LT=Y>C@
zbLwer{c_fd{+G8_vgn43k@i8lVUX4i!iZ_RmaTNrr+OlN{j1joBYn{MdgT2Hx?zIW
zP5=q0R`_E}SRWdhS4B*x=<HLp?$q+tmEK=fuUw@YJ0kDipc`+{x*MQ}SLv(G`17Wq
zC)hfd7rH}hO~5I$AVmDMDKtW7mM#|3nJ4{nq_B~|NN^<F_p|CnV)4X-8%uWj(Az7g
z>5|UKmHsu=z`E)>t-8K;<Nfs;H|ZNUqbj?f|GH#gkXHj&gIB_(i>K*>^~=^Z<+*ib
z3$1MVV(81!&qt%mZa;5hU%imYW@H9S{LL|?I#?WdFT@M=%u8sc(a+ln*^tO)B>_n=
zD^!zE^=YK)yi>IHMO6>cjYG6{D5lK_m4;8#xfTD$$E8(I_aYzpN==`+8tK2jYJNY`
z|32Mli4aqC;}or(N)GeyXqZhAmZAUA(0%)yJ&cFnj%L=<x?1?ETHTK>-|wI658Vn^
zMh!Kzwq~gtOl&uEdIihNToL@zvLgPhFw%C7Zn#EkukB`Ve|!1w`akPmx%E|Lv~eJE
z&Ae(Eid+M2SR=z8y3s@HJiD3Sz9@GX;|92mi*px4mT+NIU%gcFH~3N+tv?0sK;I4?
zWH-BPpi9~#y;s*%@2#t@(W+}}gE!U(hv~uLsA^;nyL<^*ip4e12kVxb*OX`1mCdxW
z`HOR3Ui$n}RN3{SUGCoN`>@LfI`=5D%Zfei^2*BjUlpyierAqzS->c1ttD=bh#Hw=
z#dFv#Fb1C{&%v8)Mh#UwA~46dT8MJ2lZkB_>f@GaZqJt6ogN$Muvw;T1S7UPCmgW3
zF;c6`IXXFF@z`JwwRt8<rxnEn+>;L#HowY1^l&%huKup!K1K-$d=mFcDXCjWVWV8%
zl=mQ<i0)<FGu+dAWzK3!=#zUA`7_A#Y~^787~h2&`g-MvmJ*~Jo#3;{Yyry4-OHea
z_Y4%CuHPWaRVlnmN=XRWGq;LTQL?dI*l>B5FyJmDL@6yrz<_d@2^>C}?o`K12etC1
zd1K}9Jv1<%G*k%Z79x%~#`48S(XPMk;nM3~oZ{_?=Xtii5XJX^4&qPRtQZQ-;UT*z
zemV^WGKO(hy0||0>7-BLkS3Rsf=zRgGt8Uf^vU0IPJE|~;s*>UPedtFzKPgv@NDG*
z(_INsTX}FNSd&-Heqoq3Swx8;53eS~l#0N)OzbFkRmEy0UQpPJeYi{_jsc|v$wKl7
zi4#U9q=}Z)DS;MiNr00%aYE$PP$H<ySq#@t0T{Vg>(B7({f1#aq5MeV)um`G&E?Q2
zGVN^-SXK5m5Hv?Yvh5Ei`*93%U<DkO(xE{qHQYLYZNdEkXgZ(=O(_UItYIys9xdeh
zCf@{~8x3Z`-=&X=>$3}9{Sv%p3y<W$_8~|5K1n&!<CAiv$0y~$_m%-XO*&l(w&uZ0
zi{H{EtnEGNhqEZntFLcLN{J{5r3Fu?{aE~G;AaRN{c#ybuw``*R*Y3+Zu~Y6$NIrO
z;;?CcKXw~8>F!)_nwW6R7~=;NqiuZ12FF+Dh|%LR!a3du`^BWk=&?E7F48z{oP^WZ
zh_RPF<QU_p8Mn~|7lGsUJ2t`yCm~}~$9ZGxyM4yXUCrYaop-8}Taj^m((N%0*^H0`
zn1XXQVYCk$le?DD?uPMg1e<9fk<TI3P&@;Pv5IF#R6UCdA1aW$eTI&**2KjgR51)4
zbu-}i{4FT{g8#CM!2lne0FD+3r?3DX;0^P8FcYtnJsv|=Lli&KF#;=LpE3y;K}Sn(
z6C-4g$z&1Gl13=pNFbxn=Of#o!bsk7SjLA4%b7a|EJ(kQZ$K%CinkmttHt3y1C==b
zFA;4X6o2qxA7?J)!KvlSV(*gap*fn<xIDQsOlNnH9e{uKpWl7=-LwBf1^m7<iT81?
zH)$Y+a?>(lV`Nt>j!9b!NxDczNO)!t2qFNFePq%#3Gsp*zAK#Loe&uaA?E^_4^c1s
z%^4wt4=5D_ulhPh2IpVTjM-rygN{}g9C|@7lZ1s45w<BiqP9B;+cbN^g**(KPBCSY
zoiKr9=t6d(=DVoqM#W`R^q`^_3Px&oo2M)gvA~rwmkCjLK!1)zNJAE*ZtBFD8d4l=
z(t$jPpdv_3fW^j@gZ4;9FakLp(gM|#uZ28tnjFE|vuESqPm%i7$UlPKD52%1VTbwF
zhiztK+PrW{L{sX!h=NGd;ZL(3X3>&TztBGwoSMJ=L~e-43pRB5k%D)ly6%XgJ63M`
zRQym(OAh%J!Qs$IOq08=G13}iSW9b)!xmao2FGe`9>n}bC7<Lx$e{%Xd>8#6#I(k6
zHLWf2U5d#Kp{!N8F(NQV<i?m>7qs3x6A|S2&&1^VkZ4tYAR;&rkspZ3RkIC&h7f;2
zIxk(59}RbZa`nO0Rr%3~;3&<O5&6+4GUaSVpdu>E^)<&*>KkHhu;Q-{eRA}{(KT^p
zOkJ?9E~eGRi^A~qs=6{Fsf?(T(8t10<qze5-S>-YKfe|!YogUn5lK@--4x3yThFPX
zb84bFbph2AbwOA}t4kM6tLoZ_q&A|i{pa$^ANH*)3ut9Q$g-w1E_M4Z#DH__syOdK
zD`XA)?%<`lwurirmKfJ1rJ&jHt;LMR(T8IZQv+RgYE5z)4ruC}(79FBfdDV2%I0bS
z>seJB1N^XcQ;Z1}-^eh1VZgF@c$v3)_|${$72MbQ8+nKC{8OoFHaC#FF3qK-xuNQX
zlk+DR&di_r2kGGri6KbPlDwEg7i<c;L(Spb#T%$`0TL(Dm_qq=$ua*0HeFM+rpRBa
z1{~Wu7*!O6rWU;O-o?w&!m6dxUmW}Su@zplrupl_a(@$>w&?z0+oA==U>lcz&>kvU
zD4#D6*Zkz@BL1o5p=3$-ND))0XD<aV1#kVJBUHO^YW`H%@{`82z|9P;RJN(d4EY;}
zDwkAW2)|T(u81D$h-DVWvWrov&x_?Bd0qtFe$U5bM>b0_h0fRU`?6&HTelKS`^(Jp
zSeudmYooC3u-FQKtp_<-6vRLO1C;kMJLUzSi2{8u?&W#;UID@L3R5mc5~1f7Jyh86
zgAd0C{$s%-<fGy7ie5qk7xxgp!)PoOk^oVOUyDlONpJ;OM3k7?x-vwEnb9=YcCasq
z&>ljF2Z6I!#?DjX#Z$N=y=;3%FhcrM2%2D)2`zZ#gv_hhhlU^wPUt6bka($n6tAV9
z^i(_aL&+gXls{HHO6X<}Jt<i|{hzl8n62s&r~BQlLjC_{wwis+R*Pm!VGs}LI!yvL
z93uw+L|#KhKPuis#Vsh{qK8Cv6tgjMkIn5dTP<#zx!S}huOh@2%`>!^VK}r#o)M_{
z3gOvKX!Ks7criLi9j^u$v2j8Qk6M7C03x+tok>WJA(#+y^n{b$#K~a<5XHk;lM?O`
zZ0<>i#~lw3jDU>C2vewb5Ea`Zml*`RjfyP+S@-!uED;YOw5$qVh$HR-;WGT({{ca(
z4|}50_*yp=SZOUSIOuEf*9YrEC!T0Ce3za|l(X`HJlGPd57#fASgv1_obxq3m8oZs
z1dc%XFuK?@?^+sOlQsI9cY!K%LPepTaB);w>bvlypm<?$e$dzI@1O;_!17QfEhzG}
z2TMa`PZUaD%TsOU{rtK7)dN+_nQPj!zDrNEdQ_yy(hiy6vgOh>NmEji(eU9V{6Qr^
zWlc#*wm~^bmJWZF8?o5dl*4HR`XAN7l73BD|9vxE^sFiCb}*G-iVR;T8_}B}aRA29
z*?Hl@1(TMwRq_S^7<K%_QQ?4#(Mh;_VkBIRME@KM_B%5H$1oBtBNDkRhCgceuqi#a
z$2L7dvf(%BU@;K4GlC(P%Mo7y$OIXA-0aOGE(h@tV};?4E#od?(qTJ8&OtwPvU2xB
zxyi?I{I{6mA2H=`u>60*4nD!fcXL0?-Q-=z@runV3{t>@fx*pcwpoJ}7A-jD9h<dm
zvkuefW~l(Rd7N$5V>&%DwapW3^CX9DV4J77p-!{Sx3J9Y`-5|XziULz=X{K(NbtPC
z$EvDhreiT<Ni4e{rq79G=6#cK9>;ZX0d<%9klN&<#uJG0@&oysLezke5mpdtirJ<F
zGvtPfLz4^CJQc}3LhFxiN?C*q)8>Q>3;FZ;w5D`Z&cYN3mNBQ?RI*JKrpw$^vsDeI
z(rs$lst(iWH(4nlC=<!=4t_ZJ+<-982Y48+{GFs1$1}c};9+WGR8{n$oK^jQ1FMrf
A`Tzg`

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_405620.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_405620.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e84b67bfd8c6b945b6eceedb7ca9c63ee766cdc1
GIT binary patch
literal 9027
zcmdrxTTB~SmQ}8Dx$G+2m`4Hx5<4LTCnP{fpp&7qfrLOvLN_7lBs8;b$7S;}HYuA9
z(B)QTl~wE>X)qe?;?}m*&dx`>CoK)D{aB>^p+8na+8-A%-QHSOVm0|#v_JGPD~(1g
z?VekH6~u&0YkQ>GLcVp*x#x9H-FwfyhkrI24H!Hh&irDy{RoEr8X?)ooB_6P;}|xN
zaTtetv4Qj(AHWq{GfoVUIOfJj6+Kze^qbST$x(JE4PhLy2c6u5t}RUW&>Z!Ye33CQ
zpwnaMk1OJIZfvxufL(eIx_%G3!L8?*J^EPaGZyaim^jl@?SLT{G4oSwfYD%XCg&?V
zjoU4o$i-e+*KzZmD>ocBvOuq_zuxcYe6O?Dp#pEX4yi^&15Chg`xgMsV?p>r>1R}v
zh4OC>f05}A9omOeljE$~hm**0Rtu#ZF#~o(hXq2^a(L*7a42N;b*3Q>AG?ZSyxKCE
z_bm$vgm7pE5Kc1#GbyM0h{}uCNagr#!V#ew=?Pf{t6&=&1k3m|2C#NU3)G`Rl|U)b
zF`-(}DNv2d29@<E|K@Pv;EPODL&x{!Ezj}R3Yc&d`63)s+8V{L6GA0_Sf!=Vs7?sS
z6^Y|Q=@?l4ip=S(^BoZ~)R6rRwb<420uHgzqj4+VoD?*GGdcVec=w}y^q$<)yZU`3
zPwgpr+IQiN$Cb6O9@m>%R?D0gN`-@Cl`uoJLLG+*hbu9kNhsrKz;NL(NBkvG0bkEY
zW_v?t)DpmffrJGl7~s$#2^2@QT$(4;ppvWKVX1zXrA%+AQ7y5<Qhh;7^%+Y|D!J1;
zES=tEDbpJ|tCrYd>2yI$r!$tCg#$b#oMkZ3&<t&}a7L&{;};r))5?5;bsRbeR0RX7
z(yPq6^8#65Wwbyf|4B823a`b|+*)YOd45+Vg?7eWkI*8tawuPAzNoUc&h4b-RvOw>
z;lb5=>RviEyL6rhohsU^I(`57C*$c~=c0RkU!RYsXIdt%8SK^3@2@94w-i0+VLwn-
z*sFSc-TQ0$<9ejT3U+G#r?7vjy?fp6UaE`}c5~%@aMw=%*8XEu<kHe_q1|(bp4>c!
z?6;#YbU~$gfB!D1vd16l6OvW=F^$=^y*x^#o9H~Ui6A>JljF|7m|ZJtf?nA$!TX1J
z=eT2plS!}N$;p(Hclw6hvNjO(^KSb^8NV+RSKjHDiT>-ovf;{IM}KGE&CXsRymR-C
ztPceF5zg(HdYA`?^Pn#eax#<Qb@>B6HInZMjQH|BfN-)gD>LcvdptR9{=7MV-kd*g
z&JQE;4ZEFOK&ArjM_#v2Ht_zSlb?2QBjYkN;tRTYuiN>do0Ih}zi)JM$O#k_Jsy1|
z9(GoYM_Zz-pBUjB51m2RuuLNmX_d7I8kbqni4;19onGXf`;j96MuLh_6jU7|xnUqQ
zxF2u_9S?I5sLRlNIVjIJCR0;jH2_~?$^lkn3Vk*QFhKay9W+EJ4G}<-2|#7dR3rSF
zWD+QiN((S_01R!DteJ-X=_W8Z3BDlp3>pH2dc@@p$oeUV&+k+0=@omtI}i+9gfLjY
z_w)O^4Uhf&SYX2GayJY+U1QGRu-|vuIpp>Q8v?wmA?O~TXaKAs^MQge0|OpEKYnIn
z+5vP2OtBz%<?_QsJJ)!=<!mGL$i@u&n49;xy?hrqse@nO&*9UF*l*h~OUb-(&KPs9
z7FosX>t@SrC=!bGt(uRB-RrDr_EzLp%(lu_iJhsE>bPa@&%~P>I!jVlkt!_<>r<A>
z2(_U=OlkDdCvUHpSAMShR2MfS9!S=fMT=y;xLW?B@b&fL()kl}Ct@e#(^6&QYH?Fo
z2ePrdlI3WaN->t`y%nY^#TIXv%VK)TY!kav=7TZ2WIl$V(&)5gwt_?8-gIO-W{GvJ
znrmLgw<yeHj+RFTW8IRmCO#z@8^mk>t}9wEDxTNP>0(s8Tq?IO(2EzP#?G~(YZ2{+
zr6SfNS!%=7E*@&Fs5Ptwg+(RN_hMsG8TevHz7(s`?<kD6tec8vhayAKVbFdcr`>cd
zOzhPYAyjsEN>gj5)>j16L~!P4ed6(ottDI*4n<i>UoG8xxY)U5Te_L-yPfQ~z0%g7
z93D^lK1%vON)8KRN6L08D<FhJNZ<jN6ZpC}*?%Y5ac8CNZgSM0oDh-|q2%btVu#95
zvto#;mhOJAcx4G+s$YJTy!`G;TVK*Mk{o@U9DAJfOo>->cACS;4)B9x8UC-&Am=Wp
zof}Jfr;^_3<nYW6AvBsF#t3}<R8eVoGE8P(FgODnc16mg9kG(RZb@GSVbU|ZDCrM>
zKk{*$mdtgDw<L43*p0q+$@+ov`H{JiI3B;adf-f$*<i|I2Ui#?S}fg>?&$qElW0#|
zO*~3mm8?xtS<}MV#T(1`GP&HeOiFFHlJ5>kZ3Dkz-~Yn|zG2^g`GZ?{bu4tEI#Hjr
zwn}BKi^WTI%Wp5=Om;j-4tk^x&#%~_{21s&RiawO*tYz3j`16IDDV6KiAFFDUx+S_
zcCF|R{R>l?-FB!%IRt&7N3vd8x{o5=IgtD@Cv|db<!;!7asi~Jvbw}YsqFm1^wL!F
z_Mp@?m~?ogE)Tf6QDKYsNEK%mPDte!Kq#}LsZ~E%D}QG%b<^LleOqRXuG)re7L)NQ
z{w;X(7Z74fCs~xFA<G41gKN@}CILL|oXQ|F#k+%(yw9b+Y@k~oO1#^jLHkVmjD2RD
z#{_&7NV^{nN6aBgprCL8Iyhpi4z_$v5B3*$VF^J~NRLViE7Z>^S5cvGp9cBh(tN^(
zbbD}+h~pDuL@R0p-6z^$=1_)VqlFHDRIZ#tzn(Lq&2j3(Y*-sMdI(PYlnxn!DDx@L
zXraqfzQDr-nJlMZKwd)81c#yoDKIb=W415<=5mFnJ^IP4PkZ#|N?d#N=SC0T@AdWz
z_vh_v_K`2#pO+_}SOoI*I(#@s2+Zqw_UO;sDJ-9lQ{nzxoFYa+2lHRY={yGoI+!gR
zV}hQevzK*<b^a6PAWoUNg(dQ<NuUHek8%3X$e-dkCNTY&-O#)FKk)E+P^nxjcr@Ew
zxoRjNXd;%tZ@Ueezar+b2p%C+Hz0Hg+4V#;0@S+EWX!tnA;6fXS2>B>H8Pbx0K##W
z8~M;q%H*xiJMFSoIg|4@L5@EPO#rPet0;>6H2`F~&FdV0$T=^~9Cl7jc&E{!7LNaC
z+Pr?3(;K)1K)U~LkSr?p{!YYVWpU~&>X*!y%tFr+x%A*`^J?9@Qh6WW4gH&F8DHBJ
zp|z8Rt_pS<u1&+v2{+#dJhIv6o(ei9{Eyu{?2C@GvKFpXaEma&c{e!i@Q%RA6`fk)
zvY=d|WMX{8XE*WJftKG|`5uJcK#elg8U!6f4RS{bkxUN3B}^vZOwZpzL?s+1fRsb~
z2TE(bd^sH$Rvixh1K@fJzrb_&ioX}Jts<<rY`$WyB6fDJTI@-|832!5iuJ89hm+*t
zBy%{$m}W0TF2sn>^`Gij7+aFGB^eu>l;^wVx?=5fJ#qXC-E&<6e{K+OiJjq=l+iSM
zFLE#17a0(*Wlq>-hr)*6Qkc2yTT_i>s)-M*ni|EfbyMjM{J$uSy^V`kfs-lv)=()K
zDq~HnhHCN3OVSdpk;sE7S|4tX648Np34pV7gpOK%!bJP#@6X+jIe+$k-1bG?^SVUS
z&rc;D{c`HdsYU$7M=6?_HAD>2rk@z2f%%!anYis|p~6J#$)vR<Z1|S0km!n-ZH=y4
zY%j<ecYQJXe00I`^YMlLe;D|?fhGL!f1ILCQ7UGLcP7qnnOQ9bk+qbs!=bw?*1uY0
zOBI(W_XgYC$<G4u*2I<7BaKpV<3hVsd_GlN6?-fd*CuRI@u}^DNVp1P&0>!-4_)xN
zat~U7Xd-O?4%&Ha1Pj4h8ib_~!b6%65h6KFNc;Nrrz8MEAUOi+2k71lPl(z_Mk8oB
zE&4BnB85CaQo8RYMF%rhAstb$xzX7wMo2H{N7YA#v>8ZR9EJ85PB#daLk4A>bO={j
zFOUX@Fi!usuz{;8EDUD|v2PF|1N^@v9UrvGz_V|B*zXme!cwoq2a+|*F<-GSGO>A0
zoQz7G{^Vx_jMnrb8~eRyh57%@Xp7!pv=%g40fSsw+zS~=$;$VDw21<>c^NfUXdrJ+
za!#oHQJnijDDx<cG82T-j>82dAV-s(*n|o^#y<pZ-i4a?paGSzzOhXXHOq)Pj2dL&
zj-61Yq~kzQ>pN@5`PyByX0Wdt@lAN43Z&*eXV>xrh*t|$AI_)bBmO=jP(imZ;OFf|
zSqD|9NpCQaPHxAbQ^|0$4wd4d`o`BF($2IgQ;-cOCWA5?guL&~+&}V82hdqFoftE1
zIy+jFu<S^Ylfe0p@C*Dm#7M+8OhsbX7K_z3OXN|M;G!+D)(uOE*z=M$&N2}u+8Jw!
zw<KB@Th{0fvHhjNJbNl~D(Z=iCfYysFL>4rZ$kzvOf^E9iS@^itr}|~SymtWeDKpj
zu`7H_A}hh<@dk;si8rIQu@f7tQS5waIWS)}SG97uaq+;K<+9kbVJSt8%9oq*+Qf;)
z+BLd8@5yNV<O2S@0jP%dyeGS;Sx**DE>|X<?lq&QfI~lM3>He)j4gj`qlw^}@!Ts$
zX^brqdzI`9Gas#r-d?*=nYfv=Uiyf7#tX&sNhoc~bQa>#g-a$zM}kVBIS_PDP4Jm>
z-yLO!%LG)T(-R*}HK@oc)7>%T_i|riiqY(mcHGZRdfk`!kAV-Jx&!|K%@%><_^&bc
zUoqpqVO3icrlFrzKB?T&Oyl@%e5(<II^1AnaH}bepUvXUY5W{kR6Hw0gst;wyd{JG
zrd7eW2~5LgbzLU0Lsh9G$5IC>zcZf1%_$xGOn4$}5dd%KO|w;zsx2+R-~`NXgy|4Q
zV`b%AdIT9Tn6m5~yTu@k#Vn;;NY9oDqnKxdPX@QmfNgtl3^)FUzJuc>-%V&Rvvt*E
Jd%`G@_+JXrC8huX

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_431864.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_431864.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e44f8ce50b56ba36dbee5a4f286adeb9a183f49d
GIT binary patch
literal 8238
zcmdrxTWnKFmUaEMuV2@%ywm2D;53kDhk<5jUI`E&3=?3MY#6sY_a@kJZ1?pIkf^LR
ztCp~PTf&ig6r-6@yXRwvSz6k()T^eYk%s+RR{P_N(;M$yMw`*_6KOx(!>%+M?Z=+F
z_H_&x!t^pL?Ox)lQ>RW<ojT{#Ij4$$vRF(AzCG!`xxzOg^jp$UzJ?0$Bt{{$gjmE<
zVKiQ@sc}kft7g^X8j9dlVePDLTsNy9*Heh2LUv`Ejha<+nvi3otw5}%K7LBWYCq82
zt&okIjHvb>>tuBt3VD=SHfmP?0=(e`cq3<KP23A+1F;~Merc~6dd)JOg|o0$_}SoR
zufN)qhh;v{j$5npbbNruZ7RgssynsMQ$E)^+0dv@B^l1fgkUrh2us=v5db9fk<(|7
zp7M{K93S$Zk&GwD{6iOqM*XKIof|ShdVtmNd-B%+Eg=DPSpGsP1=^@t>Tab!;oO8$
zRi$)oLaDA&y0H`MW+o8gsd<E5*iwbnH}=)cqS@d`fv_4o7obs{%kygVtm>&z4Y&b&
z7QogMjgc+D4ZWZR*n>4U8aJ6w^Yr==3e$;3?8c4NJ$SI2td(fOCRV)w(oHni%&Aj$
zvQc9OH{Y#jA<-fjl^&MD&A8<*(HeZmP)2om9%gIBtu^z>=e10slrXMEnNQ}V4Y%Ru
z8Nx|Bb|>DzZ(tMIFK&~2y_mvY8QM}aZ#~&>!R?=El$k>oWxb7BsDdGD6|4ePoo#)F
zgKb!ax5*rA--LthuZe>l*v_l*4jLtPU>pDMxC!fJiMX(V)PxsS4f3hLiH^-E%J!A$
zR7REC*d$AR=O(*CxPz>ScfJ<s`Zisy^EIy4g?)IdEW0keLzWjgRc``TZsD$SudLl&
zHJsIn2UuH?!<(`sDt1rR`l|Y)%KO>%^r#H=(d~L#t5|(qjh6dxv&?NLIW@AR%39oA
z!+pKep=j~-oRL@6;_laCGk+Q_5=s2=S|mHFj>@P$!Wx7fa-=XN_F!Y8d&5Iw6Yf_0
z(J^$H1<UKHtMeXNqrIDIu$RzP{ZwBKeSOQ5>2Y7EHquu79Y!Hn1+1y+<tNH|%1$Ws
z(Ub<wBcFDZCt+co#Nu@V`6x*<8;H;N%#un7OQskfo#q3x{va!9!qEULsb_-`Ny`T!
z)10IWlxvj`mGo24E%f(E+PDzqNnc!;k8zTgl`9h$=4QEw;1}k7{Sx(OlKSY`F-bjk
za#S)Mz2F}kI(K?#bWGAKfcor(^O89(@IjXIzZVcDuSk|kE6%+i<{}bZX<p%gD^sPx
z24^J`9~A=pykCZA1K0hP0Tu!9;Yuqm=^|ugTr!rs{d`oSgAsw_!(8Ah2iu*DMnXKe
zXT+0;Dj8!zw!(>lfbzOp0?o>E_~WpuAn9Q`KNn#oLuKBeWQa~p#W?}!Y#XfkuLQzV
zlD?c+osy^-Njn2lzRr_yD`{iVIMC}Sp#r32B0zbXGV&@UXZm<BQtl;y(o0~{tGiD6
zdMb6Vq$6te_em<isjl}*n&_O+BbU9BQSOsDGR!D58O!n_Vx&Otgbg)J9PbAPy?^}o
zhYQ`;qWnxe7MSF^uLLG%0>YJOWOra1tfD*4Pj(C3Y^)nv-4!7TU|jL3C_lR=Htz?#
zAB;hWM*NdeFo}Ww-tP<!K#ydpkk4>@gbVX0fIE_j#{UjZcoO}G9Wl-&%c3P4DA>Kp
zlaFl7twcJJJy)>3kv#FpY`t|ReI~o5U~Wwgt?BKV(+~CDqQP3!+cJX>^-Tb->6yH~
z?UBo~bbRr6cH~Zz*xFZc^{0%F9ImC##m;P3ZeDEeS?(2^2MUh2Qu?B^IeSTTcBBn!
zuC|;>bakbS#s2;I{^5`Nmi8|0&F;-z5?l7HIJ+N=qzr3%bH?yc-$+)nHD=!uZQkUG
zHIFxUcrlth`^aj)HI<&qOyu4vSo@R5A6Xok-b^%iZPn79qKbCr<0DHa7f)sbxrTzv
zC)#}}ZPDh+{Do-iNNLvWZfH6hvR$HMdu~p2>;mT8joH16ms6%H_jd+X96hU!e$mnY
z#gQ*ZJ|8JK-bv}#zTL2Yp>4&6_RN*k@!!y%qPs0;5#76&4foy_dxk~#@B`+-g@0@k
z-QQ0QzoavN;iBliNJu<c_u{1-vv@f-F1ou@!;e6h4T}v~CVTOA^PP?rrgxPY5Sf85
zzW?R;=i>$DQ0mAlkQANntbXx8Zfow^r@KVwp474DF~l-Xq)%kVvV)5gxq&-VUz^{0
z4!3H4Ywh_xx<&VB-Tje{{JD2U_q)*D*p{=2jor&#V&j3-$)~yAzQS~`GJPV`_eI~A
z`#;}bU=BXJG2aR^u*&QenZ3VM{mS%}slXgf9eI8m&tsn51pBqQ|5;pc)%=~(5QVHg
z-<+V3fst*qDS4u3Z-x^DCb&O4|IZd57@*aYZ4<2>cN&*ZiN1G4>pS<ih}NSiHL=_2
z^mHbW-L^Pgu(kunV7g^U8#2yJe6cBe^pla>Bf0l~e(lq1tDXDA&V7Z}{a+j2{zi|i
zT~FZjB8dWT15Qs;gFgfJ4o<b=;7pTqRUb~AEyRL2zXgWy9b}w77>R|!#Yjftzvrd{
z0>mPo6Xy8HWbI9c+~P?N@FWRg@22&p?WTPRK|}@Av)=^dVjo&Rw0~$zn6U0T6<1LR
zn-V&#W2ps*4XkQrCpaAa2xRoijruPs$Q<MwsEn_^DFB|Tw?^8IbyMYeT3{Y+eX1WL
zR+qLzsmD4f4L{Y_tfzW~d5yR()l26!#63bKTS6#QH!oH4iv%4}VU(Z+;(_IFBa;$n
z1s5_a&_*rG5;URA#F~^`g{2iJVNO|7wv>HJ&6+<jBrJkW8ILXGEd(RDXR5FUvV0me
z$tb-WHCug4ctO8KS^ow7)mMub^joXrK~HIG+D`5(X&Y!)kB!(Y+XUFkXSTbQd=4y$
z9z#C+C{Hfsax%8iu#qKrXXoOA_dU+bUF9MRZ6xP_cwEIE{H}L{cEJVb#T&m8h;iQ8
zV0@M&P5ZqITJP1kcjtm?msg^E3obZL&(W-t)N}n16qD6Q8)y(E5;mV4fZ|8$C6uPp
zs+xqA<crUIX*GsNJE9ClX;W(0o@!Ldbk4x@lCB)cA;V&WSA7~ub7tuLVM!}zdHi-5
zE9oldni!imnN0G>3D$5R9GHEN4IEr(55!{Oc}UqvqPOQjI64V=$w2_h{V|}9w?Ogx
zB+9yTy3cffOaFpi9=><%e$!WH3p-DXjc53i(9av7SSQBqqvR~lXN3HfNKn#377IzI
z36c_F-X9J^dO;o>ApZ?q=Pwb+7U8Z7{#f)H$AfS3_sOXTurBAUK87CwBK{O9PLtvc
zDMm?gmK0Tw#ea`9&p{#SEBckxkekV=r=*#N448+9EF?>YzYI{ESoYHi*r7v*$}%$7
zN`?;t;YBiH0rdKZBq}wcj?SO|;L{(7nyty9)L>>XySK=+JY+hu*ODV^v^z_s4`$Cj
zq}%hFeR=P`0+e)nk#=N44{2{+b2z{CZ~;o%TcoYG_NDh_J-Oz5<F1GFuDm9k?>TmV
z>>n=u{iXY-9?a!0{CWQTM1JCjd4Dkf!%#jnliw3A01>_Ge=_zrwBwQ0xoT|}t?k+O
z3)U@Z^_ta|Qa^TjK92unaJ8jZZ0TL@x=(%HU1&LS|45<X_yb45c{+Le*Yug>vBw%F
zvt86Q6b;6rftLRqMT1QSjB<Qp{tD2Wf-uNhG*~jaG*sn3XORR-7s>uYqI2hecDl5>
z(k^7SB}Zgin*=>nKVo-s^!YuMODKpEaBN7NNl*z@LY>gCs)Y9CM@{y1YOG<^aGNF9
z6!;RlO~$COmerCMLwOY8fQ-_At5F7_vMP999r!nca;Huhu`yKd6%wKsaV4yN0#;6#
z<b4_vRL$x{F3)_^h&BF<lKHJToCM9966RNskO|&$%krs2txe@){#Np-Kk7O8KvXib
z^k?R~71_K*P8L~C|K}|Nc5A(>$o|DvVf%lxTl*{QmLa>v2*RRc)Tfc-{(2Hn>qJmI
zao6i!C?Gt}u>p9G(Xrgs;3Ov#O0>Ym1^;9q&iQ+N>U9KuoewMHct1ceB{?VSEGZt4
zuJ=hX1I2ltx*UPF5{#TK*UZ-kF;EUeHMoAjk@!@*?tl-Te+Z7e0<jS}$nftHgie55
zJj(kllAh<{b73J~j$9;YmBZH*f#lHlbaa$-5b<Jjf@H3Jq}gCLPW~(4sgPF=cZ@8K
zr(zxk${)cm{$C)QBwDlDlgCSD)X`rP^VS$=a^$hWa*IyWnW5}pZt%|DdxI;6Bgw;$
zO}1Narr*p=WkYuk-;OR%t(d->Jo*Bxr7625JC@s4uyiDc*V?vyGI4t%c|3JS)HK7A
zJGw>9mgMP7N49g#Y)KA1W;{!+i>(jad+vEwm_rb785b#PcsZTxxYK#BW5sZIgOgCM
zYnl4A8?dIs8=O3YRXADhdeEE?a4VLnIt=|uWw7j8u?+riFM3B<u?#%7r~#Rs$x%7#
z`t<T?7#$rQ9v+6Ij2LbueJf|7d&2OPIR~#$l0kuZa#I0go{t41(>w{1JUN<@IusP-
zYh_&EuE+RFzIR@>d3Ya-2$JT#Xf#|t5X1~6x_k`$)6p>d3sg=yE2->kl${H62l<;o
z2ZoB`G?XPZMNz*+=6^+&U!&H4LtED<{mteZ%_Y?-iaJm-pnY%u%KVkNWR#mGWOv-c
zY5Y5yG@q!E%3L92Rj8q{=-XZF=qh@*!&^hq)l~GfeB<t;Y(>5KCcc47YJk^_)?2OV
z){++Bk`96Cla`*e42W@+j07?vrYY<Gr1f^IXzwV|1Z756Plj6xFNQ_SwvvUQtc1$B
zXerr9%Z?nL5<?&dvN}pm0=bagRU#aeJV;01oVYRZqybt_u2P7y{LXNmqMYBvRLJIq
LtnLOa3+ulD*i1KF

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_44150.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_44150.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3e36b1d38a642afcae84512d5de0169410fb517b
GIT binary patch
literal 8781
zcmdrxTTB~SmQ}9u16P&bKp;R2golBI5E7D}p|c@8@&Ymh61qtu%W)M?W0SJU0A1d7
zM!kxiZVg7WE6mJDab`Z+nMCTecBQ6QEp2-DqqEwNwFA@bsbwXvCO`a<p;sEUR=ay{
z`5D@T?2LA$-6B49@44rkd+xdCo_kK^9~nlC!Sn6szZ(C%9K(K#I_ak{)!6<U9K)6|
z7GrS-Hj;efBe>L;O%o#|j&b;;Bqz<9e6uo+oTOjHp&m=@f+u&u%Xh&mcEKxm!K?D)
zM>TB0`{bjPq9e)z4E?c1teV3nb$RrscEQuT;F(?UnqBZ(u7K5XYE}<F1N@Bn=|)Yg
z>3#VKmD!oX_puRLhH-ReEzCS_Dc(d&=ojVZx;wfCMa5wEKyP=yNOYa=6RGoq)~g+t
z&v%^Z?S@YOQ1|8D?vAV7U83?#@1@R**1mM(qP-%=5=v+j@Y|l0Bj50Vha{g#S-O>d
zv-qRbxVK^tN?C^Tz#f!DhSDrl2#Tre7{=rC;G^D3p_IRz!%b#2Nw);KP_Y1=jEu@X
z=*c8KE6e42GoJJu3vfcbRf1Wll60+^$Ao=%6wu$7)?JYE`}UBzLvJT8t=Hr=<?t!e
ztIWPxTqu8(+8J-Pu%F)#Hd8Oa-U$Z;3cb;~Ko>gGu4V~ooJnK62c5-xa|t>0AWtjF
zs1|e?DK$Bo=Gz&WP$TJ5EtsZ2W0rg@e}p^@9&ha)yu=P(MGkMBrywZ>Wa2q;^29B{
z#1d(13FTl1&?Buw7j{DgP3pmhj8LDnk=G(vybXdS=^friXMs?k#tDUJHQvUY8S||g
z7Y<6RZphkCXh>NgcNI-<D5o(;PGcT9hlC=&SZESzrTsZ1)Jgk;JoGSNrJisoIV$Pj
z412$m8m$YcDJ&m-j-GjL00GOh-oxn?KUSu#jps&|*U8CUZ?lkEaju*XH%Lq{2_?v<
z_-k2TKsY!XDG!6)y&&!GUZ<lzYhUk?oVDiP+at(^={VqR$)V4`CW&5XN&6s<eb`H4
z^YCX;_4DW$Z=!g*iCSaugJ<hcEHaUtwz;Q7xyv)o@hLopS#X{K0*g|Vc^sm8hIfte
zwrT4GE0PYEjTIF(-sT+RM0xT>+S!TQqTKCq@tozTNL;!yB;xOgMCYYJkr+JRFRDAQ
zSd%x%pr}nXte1Lv2D^s_MV;HjPq3WTHS4k7w0Z2~qBaLJ&cS?i4r2P1-jt|Gjm@Q)
znM_||RcE@>Vzxb%nbq!crx??dAWU`=)XP%4C!9N|5hhEGdQ+mBcX@35yp^4p7O7Nw
z+~yb+3+yiE<m{Nu!|}*@c(n681X7Gg@s~#zB(FjMg&nbAW`a%4rb10=J#y5V78y5p
z%fUIVuF+99=Mk0AwL)LSr$hz9S?5GrdL#WoE0KVPNT3!zArcepoG6<*0>2hfHV5yy
z7LkMvI3mH86tC0ew1WB~aogr_9|e`n|Ly17q2?dD_$l{{&CWHC+w4;|&$!EZ$Tr3~
zJ<V?3-t6I~XPTkcoU)S#T*^J_;-?SK%v%9(1?TX99(EVF$gyKB$B)2($fT&JINr%Q
z_%omzGM@VcnAL}UQ-tY_%ghoJvaRXNzVjPe{h~ME4GpYm5BSb)(3-`*KwqeGjV|+b
zCzQIV>ELta!MIA3Fctdxexo#O>?^&mTv3L#Pb@L>_t*Bd`<V@cX}NBxF4Pd7kCh&I
z(h@5@wq`i~x$JM1pDCZJpS>G9eRb{RaLh35SH>w_@a%JHf1EZXD1DSF57$K6e$fow
z-<-bmb6Jk$^?mKpD_8wYLcia4VMC=}EC>_?D}%#ps&Ze)O9iGfCg{SDCPvrBHASKF
zn5On6firapjWIYG)0kh%WlZIk0@LY(ErHpPI;N?5sU(={mjqUz-O^!9(cZjTU9chG
zL~P|-DK=9{s6A$^i&RD&v4-!(jNkM1extxBX0a|%7pxA^F~h+~OJw2Usi($ub+@l`
zLrw2C1bm=t%U|4F9$Oj<O-3r$ikc#0tNMqIubA)q@qeX?;s#^Twp8QqjO$JQGXR3O
zmWl&s5(Z-q>b;o0%6|q4(=84MhJyp4qNR~=Re0e+bF8psRkk|vnf94`of-7YHW=+*
zBw$#&Fm5ai5lbgSH^Z$f<1u5cziTHZ(3SWujj1Tu8Zs`u72?C4D|28ae;24#KrN~Q
zs-Q7=d#Nle3y(a|#`MikOsi*}mVS2W*Q#E$wYw91rRv>k#Wd|(Coz>F*!f&pyrC}&
zE`(bn%CGcC{2d8hNvJ=jYls_4LpNfE2JiuWW5Q4zYJi;pAJEr;4;W3s$)&@vkNQg3
zN2cT(8Z#D39$Oi5#7Z0142}Ly<oV|U=YoT<!G(1Z<FDyMFZGzA1vpguw&DC>B0k3-
zhd1AbI+|C4j9XOOXRS#Tw5M%zsg6iZI3c1rINNQG6;%)dXB=?c`6eVo!E>Hj-f7Py
zQh+RhABun54G{b88t<C!7A|7~Hkm01U@Y~dixO{vP{881F}Lyp#>&#zAK`!{rs_fA
zI^ail+m7ct%yZA=ReLFxyjKV`DBA9L0;WKrpcbe{sf*Z)IrY0p1B!d5dxc1zfajZ!
zm7~RZX@O=HC<XK~0xeKer4XBt=E@w+^YRO_d{WU0C4SXj{K@$RI>S+r!=dB}0rP5{
zg&q_vrDqadH#;67n|5df`5l=ccjAKjo>3rtM{+pxB*6ibCsRn|E8@YbnjMot_pv&i
zN_h!^WU*P?tMwcGCV$~5!BX$5ygH9Q&Bf9IV>-q0>T~e|oxvMC#x%X4L;E3UAbG?E
znLrAJpqWg6q(~FNn`P3e)-L1Z9^;BV#xtcS*x>c^=O53`pMN|%fBy08{P^q68B0!e
z!D-TicfVFkC?Xl4dCiI4Ly{(Kuau;Gv&qvma4OzpCfOV4{KrUoRp<P(Wp$<nMo^6w
zCu57C6%>MAFtFO6D}RjRSSD^6!Qb-6Bq<`HC<)IXc<>-*(e+zon+UauBGtmN^Uj%B
zkJ-aH-7eldJ?r+EZ*u0=E_3~vCi75}xyxb({IO*JTnfea0xM4;A^!;vkBW(fLzkt5
z)eH$M2%B&@Gt%1MHji>Ph~QjyaKQ|Tz1iku&5+wCDaRr7o87i)0OPh9ZlSr?2HIrB
zxkeFBbB2Bz<@x4R5(i{Zh{##b{0t{5Snl?OowMieH;Pv1L~pkP_)B6L3&;XQPC=9>
z?gwxIN_KSi(@|lR01L|crTiMEQzY|B-UK8TQY8DjhdM;P&F-1CIjlK%n><;P$Wij`
zb|br+eLf%G0S!^r?yybYWNoJwDr_?|j(L<UL*9S5-QluB#(WAI$?+cpwYw6)?|oQY
z#lXJ}m1dC&P*GD&*b_Pb;Lp}nCtfPa5(VE0RGX&(Bx|<+fIYH6+(rmA`L5N1g%Sx=
zZ^)$$5XsvU+z&-LRAf+3sUgSq%v&83Q&6%ka6D83a=5bFj`2SLks>iY;gnKnQIRZ`
zEJZv70W6yd@ZG4}gTPq?&LMCf0qKq>VPZEhOC<?Eg76IpGy)I_C@ZA$MkL3e&db&}
z{1BqKg1}V(?jitr>WkB-PbaNS=h|4RRmTvU19tygAGW2&XlC(v;P?k8d|h!$8*B@l
zijo7-{R3;{fd5oNN%?R6Xg*$EaesJaIHoG~%l)^5?zm3xm&bvzC(si-9;yi!MT~3o
zp#YvZSo6`@2WMldN+6sKj)v?By=l2*sU&oCsoZxVZYT@mOU=HE392w;d`^``$-Zbs
z-x@%wEKX?_-wM1HBJLNg6g;OYqhxoqx_b>ERhb$KUJkq+y6~K;jgs$1>)%}iNY$c@
zUl-SC1H=oB@oP;*Oj8lMwWg``6OiE5wM1*%SJY2|qY%2PqNuWbqom^g{+0dVD}P<{
zY2zo2Pi<e0e=)vZa>=hj8DV+2D{83sUHmr%Nh^F^-)JzcAy^eHs$0|4`_67?^uem&
zB#8H&eL?Dj2V-P$Tt)c@f&}D;4PhsA7S#cDu;l|L=w4n}S_oJE#2dDMH2GliiT;<<
zPX<37`DElN{#Q5Rssbsy)qg+*2bSMidM9N2$+d9hNA(ZtBQ3vdjNJNo?%~`j{^-4U
zN!k74mExb3ga>|F?kAGcKV%{uPmNy|e^LDRCC>)_t~}!Yc;Vr~YSrUEjSgLj4v&02
zY>N%sqBq&KVeXF?015WRaLE><mMgZv9;Q%Fgov9CM6Shk#o^*@Bf{^)nxMe@)m#47
z#gl=P!R}C7xOI)Hi;{1zRs)bus2w~n^Pm(89nkIH16;-?FfW9j>u_4VxL4*Syd*30
z%3mL@q~ru8Kg475QR+JID)!)k#Eg}rBvax-8o=XK{y|(SPv#PWi%Kb|GAS7(-jkW6
zE;$E+5MC819J5N4VnafV)~WL5ekIM5T8?3C!7p%0-&D|s#9ZyA-@rm@NZpe5L2(eC
zJ?%sPLH5bd^&R^N6r}jnWBO6bHmE?^#ZHW5r~mUF0jt$yN~GOatNnkoTHPD0R*zOI
zK!Rp5^jk<No7(gNitj_<9RQnV03vChWo__T6<xRzl}LFwx5sL?xjAc#h1kR(;mI;d
zSsKVghh&pQ;2C0^MqmQKkcHTB9p}nB3KK~ebIu&C7F<+LIHk%wm-d)N&ffru(zjgJ
zDc!65HH1(k6H5ytDtXR5>+rafmo-vHR5+!CNK~R1T>r@nzYB)4Sp$5Dob^D4D$*Xv
ziyW!11zEk_=o|AZH-7S>*Grap<+gthC_jOp``^J#J}jZp`Oa?9SZ!;JtnzjH+k$PO
z6A8W1cj1MKL3x!Fwc8>mR@>H9XM7zm)Y`?yKqFk^laY=U*OSq8_1nJAU9e0^s4_Gd
zu3lqmeLact>igGMuKUjV`(k7%Oj*+$BP)Hq!P-z=f@XZ(FZ4yrWlLqxD~_xdt?N(w
zE<m1uK#nfG;o3;uYVEqJBdf_|xZw%@pc%00j;tm-uxU-6G(0Pf+PHOQG>=06qc(VA
zT4&n+w<nEw)|q49nN)?*Mqj^l`&tzJ{rx>XJr<4Ry8LDE3{jg*=np&Ke<o((`?9D?
zw|FfYCnhI6(g%3Ahnt(>Qwi^oR6M~4ai>QlZ@OHL<N-kb2A}RFx3`YD9PC3(nmL{K
zPrKMz2X~79bD#r{#N5pQw+I}^e~Z!oj4}U$l|c$7Q{64SQ@SO)j^l?R-GHxe?Sb|!
zZK_*!@T0N^Wtr~r6QA~e(wpk)F!<gKZndSCh;`VZ=8t<H_GY?Wcn|(%`xosQ#5Mc|
z{`JUcY-IFz63aG$$>`L~rwQyDZpGsRSL26UUn<|mPsNq=UEz+fMWA-+f%{D>P09A5
zqaR;?cs<#^_=A6H|A%&|ozN97(@XT09Ox4*$CB?0{n8uOsWomPsnDu#O14y(g1USC
h&h_mAz;E};Fr4|FY6!=TFK1+!)(lza9ZE9je*uLbtULe!

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_450091.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_450091.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4504e4c31eabda04600a13551b8c3a5b86490768
GIT binary patch
literal 10876
zcmdryTWniLcK7mm`F@BGN!Ek1BwLhay(~+X<d>xAVLO(hhpkxan4xv4Cq>Ga)WgnY
zLT^);OxlWUQHTx}FdYPl5~o<@qbMB&h}KwOjT9(&O`&4%x~LZGe)x}Br^RAXpgnU*
zN|a1nNj6=e9hoy{&dixPbLPyMbLRRV6$&W^sl)T>gt{EVev2yUq)!3Q{t3shWsJl~
z+>VVTOMC?9>bx2LhyX`8o?SR28WGKiN5nX0!>82gVYW+>Zxc*ux9e$$6uba0d;wnc
z0=)PIcp^J~OioJP72Hd)F(Q><+kd2il-jT<Lz>6!l9aswFMk1EVH4Y4&^E@)gMmq<
zO_ZIMYgIw3oP*Rh1*w6b7JfO|DaLf9?p@)Ca%;Er?_wh=9%fT*ty6s+HyfX#1@)SF
zEYUaXo^(2_c2;=70RSs*f3>gUoaG#wduGrw*xCPTXRoENt81`xXwWj$**n-bz)GOy
zV%q?;u(C6~L!AJ%UF>{?m2~v=p1siBHq@CO<@_jOJe?!}@ZtAtK!!BR4SJPKQ@k{^
zU6S}`ynCr0p1eK!@-zD8@6lI~(RUxMC-LbD45JiuKCQYT#4t|*Kr#+0q(z=02c0pV
zV4J@*L<{Kr8&FB}IwelGY?tmWaEjOhw}3RIr}(?gMDl;6`AoElF1`U4z*9sQ)9Tdf
zi)ndk^*CKX@1r%ShGx8>fSx#w(S?9j?7(7l9-WIYbkX!>kS2b83zM-X&em)#n*&Ik
z&b^n~eKd!sgf4+G0OQ$D>!`*I>TI$X{%Eo<b?|7Rr<5j0!3{KfS;oxS`7TTI?J1|r
z=`xPz1GFKjPXQj~qf6ivVt>vfvE(_YOVJ8xf|FA@YD2BbHg4?)UqB&2W77wAQNY>o
zRL~V3a|Wl`WW=Kna`RS@!p}ta(D{S3hnC8dy)yGHEv?*RK7MLGGb#R2<~u~=&&h?;
zRc=+g<Vb7Ndg-b9UUX&LXxr3>_gG~Wy?@v4X4#(~Ndnb-@N)Q1$V&}vr1<n98Rj`e
zSJRc8F4xe9IH@B`QVUqFM%N@;InA!iSb;KAtCBF-lqydCII>1GXKm=(@3N}Th_puI
znfFQdISxNJN8R_GgC=NgQpeDlbm5ZBS+m#))PKuP)WbS=+XT+ma(vbAJm0i(OOubh
zRFikpZR>CY{ahPoNp@-O4P;4<X6#TlE7Cw8&D3U3re)41?IUy}eKd1-;6@-kO&POf
zkrvzrO<U4BMjxY_5Wk*g`dG>;w>&4mq)lz&^sr^81Ub!nxlL`}MS&#In!#f>Nu=#*
z>yKnlkMA*G+Mc#%%KwkB-zQ$GO~-ahB*UII?7?Tlb7v`wbbq8ZoaC&~39v#ZGPueT
zbAaaTxMx9+MBs6AJ|BI8h7r>C!*hy0NgwC*2%xE)=dBbeA(5X68i~@@={%jmLAI0d
zvNOMnyX`YipZ+e=+<Cst(q0NNXU189b#c=56nW225oR2IkP@fB;TOzUUDK@4>7KAr
zDLf*fRM6q+e?u}$S)SX@N@pqOIAxu&Op>g??zEDCb+W=qhx<r9E3#5n$GD9Zk3kDU
z2wiR`Wn+a4Fsh9eP)@tu+{W_zE)22w>ny*cZ;<5=p6O+!9T!qT#UQKP8C|d<m+hL}
z=3qsR37eI4u~N$Ewo=zE<m3!1Nw!%iC#&vg>*(pUoa?-l8i`fA+|(p#vpDD6maA6x
z=me|Dz@$daM5QLsX7oZ+qKT9#++u1Z)mA+<&Nd=7N_zH1OKJ=X{9ud%HNz+r3sA`A
zr%>!eA(O`nXD3MutOylJZV3b;VwP}@jk#>F3RaSaoUC$mj-qT1w<X1aJS7VkNXN}e
zQ#G3dc8Ho`MQDFve1x|o2Vqs)lC(@%?PIK%noa@|t~ZAxu3B9-%dFGI5~EI+g;Nv4
zHR(t~e891MsIsEPTFb1Pg0hY)d5g6yZ?TT$U5D~|9V>#dDccMyM%w`lu);;IAh@Zx
zmU*k4>q3mp+3no^@~G()=hLh##T;nfBAcW_T!|4^K*@>`QwV^8Q6WS1G5h4~tc^_0
z3RqVg$lCPBraxS$S#VO*u377-t!BbHI&F1NI30(r<FFkyE^4&KZJU{`fm%&U!frSh
zt}!PyQ$2g#0(c8(rrYVTj5<L-8;;i2HrGK5t4MX9wowk7oq8R3MXKWZ22{t3eR~X3
zYnMEJPq<`VRp#w{tkP`P&g`i5Bt#gY3AFw6?M+=_Sjp(BeMDSW7&X;0x>}zko>%Nw
zJ~8GkF9a7tH&)It#Ybbt#tmaLV{HC%|5p|FD`LhDpZxKT9ub@=ZjKpSHjF12<B2b?
zel>A_B4+INN#l8?VLOvo?^DKgrtm37SC1w$MN1nPU4u^otO!NEV}ZqR4P&fhWOa<7
z&f69jh<(k0#pwPcjPVE~JHiN#csmf+3g5!bcS6;V#1(Nu2?(hwVDuONto}~(?dEX*
zia55fmXXwY+v5sVpqf#byj|Y_mFcnGxI7#j4qaK9WD1*N`ePgVRz~0YW&2k>_j_Xc
zPQP?hU+R;>fX0$=ThQt4d#qG1P5LK8c<5A2dC1!xR~th$jN0ryvnkdFtTC~1Q)l?=
zYoW5hLhxL;lF?PIN|~IN$ne_G*L7>d%!%_%&Usj=-uM9?Y6yvgKMA)m`opVvjIJdz
z`B3n+^`V$K`5Ke+8g$Cp=OdoLgya74z-Xu^=vX-xIkK)iwV`Zhl<mK)|5eK`T4Ksx
zA0KhGXQxe#Hb8w)5*i8}489e%FvbQ()3CY_aX;vfEHF*o(X%5=(+Hy(@rmNux<<rn
zf(O<$F>|cv;VI_WNc4(>X>u?chfnlap;{XD4+k!W4}7Xwd1b|Tw`TQBgnZBz8D|>0
znEhQ3N7oet8;T2z;==mH*EcS{$y|Ihrm*^WKb-P6GF?2!5GeC?Y{I6N`d<(6LW8#n
z*jyhEZSzjd6GFN~_=!MHU_Mw7#u-gXxP#FgT+zl21t0W>1)<@fb49XR_65Frkf~^4
z3@!h`$0f&qAX$RI<c4T&Mf6ZBliT`8)*5jmRl5|t6uJSpnEtr0D{jaOwSRCeTozim
zeJ)zr$`rIRhStbfQc><Zqpw|MPF`gUSAE@agK@j-N)1!c%ov&@U26?rYu1|X_eFcJ
zFvqVjhAY0#cy3Y1{b4^0sft#%Fu5&}u?PJR1#83ios99kujjELcX>QG9<r@eL`v5U
zCw<+I<;tZVe@|dIG``aF&+?<dx~|AapnbXIzZAF@s)#8{L86+Rz(lYRRKt)PY7370
zWY6h2!Q>o^w63|o?q6GATKkxsz8C5F)*899@I<RyJ{UY0Dh(62t5+5yu61q4hPI2*
zcKwq2)s0`=h-n9W;>X{m)23PzXx}<~HH@x~QP-`uue!hJUtRe8T(o_FX&7MC13uwn
zwRTw?6o-W2u21V$$d#tMeXC=Up$B!5;m@5+S?9ySb#?!SdWcaEtzQ`4xL{!}SYqlo
zeL|#l#-hN4ulrjt3VF*D!HF<0-0-O;+;msAV!f+cZ3DZwy0B(kBVvX#K3QCAg!5Jt
zKDS!_50#%+Mh4cbtCg|(9;U2^(f0Vn+ZwiYHlyW@jIoi?G)A<MS00o^y6^9cc3)ze
zFEN@+aZPS${zL1EE<AqwomE3b@P#!Z{=AqeKK-AdukH9Vu>2T{FH)zWq|m(uUI^z3
zrS5NVg+}L6w?Du$*2T0dAOm;IM%iuFd35znI%e%~QL&Oyr(<ev-0HT$Wo&cLQI1jM
zexwsT<0YSA8zH>8m2*pXOTUcK0&fM4O{M!}l$W8`dpYmv-_v;{{v5v^Ildk#^i4e_
zWpstl09(&QGRGlW=;fWoehN>9S;qx>j}(nc3#O3Ev@4|_tl_y6{HFJEXyJQ$lIM}p
zc-GNSpeXk!Xa%_Vh(jf<q$Sh&aH%GFko)!MX);yAr;vZPE781c*iqghk9#6k!#c81
zp*EKgtrN$%)hbg#21k{e51Y!|fz-U|6?!mO)63d%;Ou4XJU2Y3Clk$gZ#~{kWeG>p
z;R{tm^RulcgE~t%#jQ0dPyS0e;?shghhbl{gi$Y_A+0|z9bG_+U3xdtV=hhU($IEE
zZ#~F6K>s`{P8&c+s1l$prd6bnR+4!7`E|;;O__#hY-gV|XYkOp^-*IA^lNvbmFb=y
zwJ*n~^XbR<r08A3qoG9<j}$v_lJIEVg=sokgNCD3@Hhnf44)JDe!X7@{K`q*xQte1
zJ7;Ol`4FA0EaxzzT^+=~zjg$1T0r7+IFusz5%ALn@xK%O6@~++gP2)zqhZK7d)RK9
zx7ke#lofn$$^?F|X~6kfr)h|DdQD01)>P4U{uR?eU&oBOIvJo+Xy+)ToYkW!MolMV
z1dzf!I}X|3^7r~e<mbZ{;YfICrS{`~-WVU)<Mnc}7KFQ^qyx?hM#;%}vw#(x?;L7l
zg<Rl8l>#lbA2Jtu=rMV{UTPQsmN;&=&Riv}CvOzN%Iw!6>_m}h^>Mp%6he!W03_T0
z9?|ZD?Dt;mXN`ASZ?}f$SKO;-K6xj$@6?+9p@_-vqb@=FQ#8R-6bYJD5G+qvXTdfn
zLrYfZn47UdG()<t16B&g+dVlx=bQsmKMA1?gn14y>Ou&xA+i+>*&Hq>MWHW~6#7KV
zN+ASsU$@vNr=ioR6XFhvM0l0Mw&;d<Zox*uJz}Znq71Wv8bOq&QHHJ>>L(}z!-!FD
zpzI3DEGT;uGFF_9i{)+*fjxci$Wu{qQjF!Odkf0S5RC`|zu7rA7Y4JUaR|*VGu(D?
z?+qD3M{CFup`AW`I=Kz<OyN^+L2n=YTmx{7|KP<Exfr31iu2;;%AXrQF*3vfpU^iS
zm=7()jRm3k;M+cV+?cz(7+ehFfAf}KzNyNKs>-88IppyQ^UuYfh#8{XCl8E;#^dVz
z4Yi3;n_}wy;eJL9L&Y`wz;iO@`sAA>Wgq9=&0_>b-ZQ>;;u=%9j?t8P&&Fl?knxes
z6cw1FGE-cp3yB`dilTy|sH`Y1Q!X|8n?w9NlG~DXSyj0I<Ker*k7QL*K^4R0QCSrl
z0Qa8^^>2}F5|SmkU;e%l;wGtLsoGy1ljeInGU3N!O`!Ut@{g<TR;`O`;;O<8RVkw?
z{b=svx9-06NL3#t>Z7Xqc;3N{yn2Y$VtEY^u8B2Kaba9vy!=M+jgO9g+<F)M*_sVK
zgfT71v6cR&qUJ9yY$ysDMPbOgt}w0kd%J)r(EUif?`}85XFgZpZ17xERm>2k4dMU@
zJA7>=XJzV>>8QDxIoPsJv_4VlHk4(IvMf9jQ`UOB|6S4N?fRFTBEL1<=IwqW&;$-J
zf;<>2PDtW}jQgjJ69x_gNPsoalrZXqBG_B0da2M~_<nIB57qNAscb3NpZk7(Vjrp(
zU=nqr5TI|1FiB3}BrNLq-QzK$Hc^b4O@IuQMTw$B399bLB)UW?g32(7Hc^hC12Dp~
zg9xg^<XZ1}?wF2(er+XmT9Ivi_It>eu}RDW<_38~9^Aw8@I3<XMuZuUf1sAT6KB!k
zE`*0e!M&7^;}Pva10NzuA^Hf(Q6UZ>dBi`6ig2f9g&Rghi|MV;CE#^Qvfck+Qbox8
zlH$uSvq#FUlkngfvm?3eO5+$Q`4H#$O-aEcBc&d=!S<AplupYBnMg=`%18c#<ddE1
zIr-2sxOZir$?v5+y_d*I!O7|WyhgxkmG{!Jf3a4m{@<)t{T)`TL93-Pa3!?8W&!7`
zJoN&KnuP4>X_T2D1Gi$1w8DeCh_ua5j@r16tjuk5xh<pUIknEre+oWRl8$;C(V+tk
zL!xu?ltkG>$f!R<nFq2VGk@20oH<@Sywtx5y)tn}0EceuOk9ImNL@oXAv{Qu4({@#
zrV&Eq<{SvK0v>^Ft~tBgmAsbsLu2x8o<~p_%67R5*AZ?3WtUNg`~??s<#ycR$*Wt#
ziD1Y5{g=@5*NEi5KptLfQ>pfLC*;@xcoE$1?esMU8beK+njG)hCxl{2=9dLJLyh6a
zm8MAJI??WJdm>dW9r7Q7+j?rH?Y47uY+ZW7+wlUdA}>@D8Vr}l6bHOrn}wx!F5kZF
z?e?8#1o<#!c?}~d@xB^35IVRiS9m+0Xbj5*!GcFcwGqR*=Ct?hrbdUd3|?LhA6PjU
zIj~N&ZF4deu3W|M)&N%8w#~^dY?_nR%7^(;t8HB|mW84JRT-@6))kF^>Pc7J>xzcw
zCWR-q9B(go)0!a`0%hp!?ds|>YdBp^xvfcuz1j{RnC9T2oh8x`h5qj#=<oH}Nyj*a
zjuC~-7R#TSbaQVWF1KxQmg4+eisD+}d4v^Qbvo_I1AtTzJ}+=;Zy9&m$xkqjnY7nG
z<0R+owv*H{^h1G(YXI^DAII_EV)9>Oihsol{ter|iHmRL-^@?&JUHHtCn_*_=K}Rf
zn3MHN%(VXweVa}kO4h5=?T3@~>U6y(S+7mk>yq{QRQ-2HxcW0b#*?S#>JebIb#e3I
zxT!3jTNu~n#SQzu$?3vzZCotBMc<?od{o(#D3=QS1qmUla8K)8Rm@chOrIYr4b34Q
zqxpy6xjP}@8l;#eFQmUyaJv8;;Dn6B$q_Cms7NTdsuI&05-JW<V@hp8!+}~%txIrR
pBy^ZacI)!Z%g^+v<=GV;hAVzY4B>drH?urUWr`_FZpt{B{|^KTl+6GD

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_460195.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_460195.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f123c6f4dc14d42c4289df6ebf96c3817f9949c0
GIT binary patch
literal 11369
zcmdryZA@ENmhbud`wR0Ozyw0#gz}k?kd`Eb5JEzr2_$I<jr;I3U}9|Y{GbFqcid4|
zu`{E=bY_JaRf;n+Qk|yS()~q8BMmbeX{uRi<cC?|zRhUqPX6Q{o$Rh=N4wiS_t_6S
zU`U$HR=fL<@4NS$d+s^++;i_e=RE#St5sp}{QSEgjr>~$hW!yWgeNyudGdQ4!{#s&
zBXJkjpM2x}INuhHiTfouf{9$xF<HNCOx`cYF$X?s5Qa&=NwGsRYD%|-8Y$TZF5Lz$
z+XgP*2Cm2sAJUM@_aqNeV)Uz&So)95BUKJ;G*6H*{U+7hz%|>zwGO#s8{Ckn5C$f7
z4q0|u9;*kehOZeMTG9wV6Z~?rQw*6&^Lx^M-NtI=zK8YeMVLdsF;BxS+?xLwO{m){
z;uJmOwA14zT%7ch8!DXqWLHnyIomm|ptIN3+kT;|z1!Av`gCu5U$3pNy}P&PBBun*
z<<^UU;nbboeeF<dz1)6^Q?~VVpS{%4+Se|Oa^7B&)*L2>x)^>>Txw)dG}u-085Ie&
z^qa&#7ClJy@RdBHuQ;P`=`;FDGWwP=3Q{r++<g|N&|AjHeB}(zlrs8hDTYmhFiaU^
z6zaa+3<fy0&<31VsQW717c=-u((@2%jD#sgBW}#8^7;Cc;!G;0avF9lFJ&cT5V&uV
zvXaqc;4-9SN|;>;!<63`z%UBGg$a-hX=H-T={JcpyB?%g3CZKz^UVJFNzDpWzAC1G
zD$JnDrX%Sl9qo0C7^!bBvxnKsbKRFguSiQL)R=vY@&-tW-k>+o)B|L1@c8yIMIn(_
z!R%)Cz}~?AN<?DG-It-oDuh9}6viaz&}ZG5j<F!=wx!<Bh?sqwxaJ6BGn=`Z1&r?i
zBi=%nD`2<K<p~&H^_Dr7Bdz#e*+OIC;WZgr&9*8Bwn&lGa?LdCPg44^OwjTu?CZ@B
zy#W~2Y*aTY8@r+Q88TGwD1-c^$WZqT8LZ4JOmfaIhhP0O`0anm{2G{IO3c)$F<%{1
z&(tD&VH%h^-fqyT(g;w#1yCN#@415+QtCDqZll6fY_YcV*|XWUb%KpDjl$eMRtVOE
zXWj_km{Zn0nC5pd8^2o^Dan{!_H)l7oM1?H-=S|xkvzYBO*@_-hqgUCc0PHUwx!$g
z%z6GfZyNtO&!!h1|2fXE7alu#)*a5E|0ZYM;r|6^T~daZbM`#XS@$yeJ<nP9GWmV`
zXWiyKoIZQdS;x=qC7pGfcYT@@I_0)-x`kPl-4t@(tT-njrkvi#$gh5kAj8RXeEm3t
z0+KPpdxMjD=n)5%f+G@2k0=$Kh<0(Ramq7H5o0zd$w^!ug5+cbMYx9@ob+v=azG~!
zCm#X~-PpiMy|jmNSdVbxo=bfk{st#*>*?jhy`9~hs_jxLxaj3{Pe&P?%<H)6a=1B}
zd&EJIUQR`MXo9+BBb{TMGKsTM9?sC#+IFVhcCP(uY9!9!r70)ruz4nE+aN*PM>t~!
zBsFR#D8;~((F?IejC3j3RB9ysMmsf58ju=A;67y&#t>N9JziUiN*ES_5F4S3*XiEe
z1%aRo1-A}Hp{t2P@e_sIUP_4y6uNWLaVKd5y`Wce&I(jTB5?Y&;%p;?Ylu_XCn$l9
zbjmhPQ=A+r3ssP2ZC+3`&55WnPEOrO(#SkRLtY2XNvScL-OI_Q>iF)msrn>6nh8G;
zk{4BE$c#WFHUCbHB8G097`kwxsXF-8b0QDCJ@q^z$0S;A;OHSqPRY|DdA&zqhL#t6
z{&K1IZ4Y(BJ5JagwIhW620@Q_+^-PB4mVxvrR=q|V{E(@TD2)H(O}5lArCcHGk(hk
za2psC?Qz@e9x$ncO?CCnhXBKAQ{8VkD7V8!b%BUzUA#50M1Jg_Pve+YKXX2KK74aU
zQ|@nnXfVxbXSI>~6~i8X=R>`5#uxNO%2)K2{xfTNmPqTY$KUg%+MLKO4yY0aW2iHt
zW6d?Jp=P0Av4^cc#~RKBqzO}QSQ)E4$QB%AO$QgIVkdjq!@aDjHz<E(&YSC)?FgTZ
z7P7k<;^xMH@?mcN+?ClY;r^(VEoodJ*pkEX+#`$4Z0;$6hn_XpvWD7)eTz1>p^G(i
zZSXk6793(thZYsFwm$YqA8YCh$k*hWz}xSBC%k`IUYStn)|9$Xez5F=hP%!4&5;XH
zdAzueRo3}WKGYdzoIz(84<C*Y^RLBq`}`eW%F7-abLR4A^TVYePhn%+crYkiGnNHp
z35_n47d+>0f27gPoC%%@T?$`ibE~4#=&i;2`@XoQ#ozu<>b!(8FKqg8YnTpq%oj(#
z!xlEN#-_#mCG)RuF6Fb$ow2R~wt0Xx4#0?6yY5};VUPC4E?r%|HW0f6o!^YTHO@AV
zv&L~C0o6)>OhnA#;dx!mdXz0V%9@TYURmn<UH#G(w&i^6_3LcQb=Gt}Apa(P*Ni#u
zw}$9Y$82$Unl)O1Q(j4!{7Gwgn9Zw-ma%z90_sPgu;JivXgG4|qxvWrJ$&!_f|K2I
zeCbuTvO9M9>WZ#^Rre;VdvoRbTdUVc*y|&4oiiXtdVUcyu*@sLE1}Dgs_3ii?xsci
ziuUBHww=|s|7P&FqrV!BYcB*u51*?SGTEHGP-UQPO{))81m6gY!oBkfR%;1}5?dgT
z6sj3TP!Y-xH>6bkDpGavQP%jhst4JYLDo2!Fy@4-BCoPVHUA>Um32Fk4}Y#_k6npf
zeRJ9NR_y9qYzq-1C)t)s);O6S=3mh;>oP3I{G-7+=d3e=M~=ty8d*~#tg6xUql<G_
zXRn5DMrz}^4Xm+Y;R2Xg0Ic-CX?b}|l3x=`^3Td*=dQ8M*I47V?F{Z07k_#6v#U!t
zKd+6q^vAB*mWjdGHPD7VHbk>6G;5-_Gr#Ad+-i&u;n?V$?F<u<vbec^q4MYW!d}*V
z6pjOPS3tR~T{g3oU9r9^E4nvUb=O$kwUvSEs{=#qz))N_yn|gngDk`1n%Uh47u!~}
zCsws>thVhpCx3hPS7+neo~P|{`(EFMT{g2t)yOVucC^dOOQ(KUzSQxVE!IPTQL;uN
zX^w~*nPbfpxHd2jpQ28}n`%Q1UD8dkCGT8tee4sd`x@$F#FTJ(tDSDzLAe~nq=V$-
zPWQMAZaGeA_qazVh6&mMm#KrEpxk!kC<sq6RQUAk8E`3X=iD~m&Yi;;35ieOJ|&~{
zniy<U=$r8#fH3J!&Yj#lW}nJk&q)1hI+av|<j+Qm_Ph8t)X>+bMzoA1+vud2Pi;$3
zvhGd}BfXQ$;Mw{Opaho2r)9LHln=ypjE+&=D1w_;bQS~dDpHow(gbr+f-{A~N3(@`
zqHIvRXi9WrAFPJ~=97gA;k;7B5yyDG_$a#mH$6hKoe}MX^@)5qy|F@!m<AmrpRB1e
z<gdd+RWRag8VcqN;k<N7eTaADEOx6HaWEGpco<EF-sIj~dLxN9nk@;lk-&Dtiu?5Z
zDu86vc}DI%2UcWZ^rW28k+_gX9X0Y|KUFZ;(|v?AAdb1MK#wEpWSJU?w~}o}+NO7U
zOc+Cf=17T1g&QO$m8q7}t$-G9MSxSeaZ=_pFfypCd5q9c0~oc>7|02j1Gz(DQv065
zXQFe2DKREw!;Bt258#mMl_1Rq&7c{uLQ;i3FMwW*jDA%3q$Uu;n-mLj0uS*veRM*f
zZSeYM;0+siBnS2!a%At5mLoepEk|~IS`K_?8Q=`arYp(DJVaUX8@hyjw<G;fK4bXi
zJC9K^GDg7|N#h5yAHe=+^u3tXH2r4l__*tqB^ei39AkqHh#=j=7TRNhP}%~g^8{_7
z9d56OvP@YfAP5?^^zpHUB^g9`Egtv?H|CsnkQN9)EUo8HSvp?7WVzVWHdfO;U7tSq
zEn^d2+A`>{KpZ{^p)P504q4K7gvIHF@f{=|>{D7WFA8np#~8%>HIFT*dIA-GRG`D{
zu>uNv>MI*mF$_hU$grQh2E|{CpY@e4D2A<!Bl8!sq(M9=8WMwIMBRLZ3W)_-GLqsX
zcG5X%m2i^t?R~ABln+-a3(!(!P<W9*7Qf$5or4Oec+EwO4U)vM=~4pe7eaoN1*mz=
z<*^ek?=h$(@qdG8(cSiEKlVZ1-C~FlE=T(otoLp4!j{E}r6IQ9Jar!MkN@NAufKl$
zpQwP}*H+oip|w>F35*e9+`*|X6RrtIJ4JaYPD;|Z5D2bX+BrPonShJg2}=r*vm35p
zDP%k#?;z{rmzz^Tj7i_JxtuouW%oc}$p?&(;@~qC);y{k1WP*rR1a#tj*1JYxQL2g
zRP;f?DV<*1Bmwt6e5MtW3>q5r;z~IN)Na&GmkLoKdw{}dsvH4j5a@#;Cg+SU8cs3{
z*%FF?YQ`d<FWy-q?h_|YB$q{#xfs+W^!CBe`zai9fAM4M1(>loQW-N;`8&UW2*JAl
zll=SntfDF)4NQh6=igpa=f>0}4^6vbC9lU#7h;+ViG9{j<oD&QVoyL58VV053`MI3
z3u~}MjI5y|La>It5Sto{!5g<!e5kyqWF;m3&cHhfV_Bq}HCFh~Ce*p%{AINzCb7iS
zmW0|AvfnutlN1JyCDi7yY*}3zla$8Pr3tlera9Og7T;CQD_7LjkqaMQxp!q*T^*BD
zvwRs-SFh<!Gw%f7iR;TEIUknZD~*@e2Xg#v59P*C&Cm9HSbeX0MP8fGm#pe5SbarQ
z8kt(w*TxjJF@0^KaPMki16$Y-FFY93t?5f5GFD#|wJz%$V~WO@zVXX_wco$Asx4u)
zC1GMkYgxG9Kb?SqJC^0e_d34N7bG;MP-9p%ua4zZu$szM&3;z1KUyE{UD*HWf!Hf8
z?15u{uQ|S^F}+{^J`paOFOKC@vYI`snggunK(zHE;%|)$XFoj`t2xeApIFhfLcpUh
z44+)ql?Fu#U4c*oSnsml5)?=5>vBx0`AUVE%YsC7|DtGl|IvFFmT-T^AJpglryfa+
zp-NVg4>5lT2g$^cQYb|YSy&b6M3su5_6rNdwlmtGHbkr_3Zgdw%(n*Pio$Ty-In>5
zs3~4t9Ub~)?Ecu|$#~82FN!MzI3Euhzpsv#ClpG)VfvmXM9huMj)bWnx+1L~p1F4>
zdhw@S359w_6;y@lzo!j(=cZ?;BjrEzWd*M17^JdwGiEG!SbiYd{fqWrc74_rFYip4
ziWBBCR2uT1l%YPmF^$QeJQeI<z8eoZ4tW>(&rr@`PB3l~M-H$L2WL&}laL~xG~){b
zSpDXQcLBuUR*OHDJV2)@JU-boXy7Y1xV11EPlY5vRPq<1QqU=`;C9FuIkWM74LSLv
zS-x?>2`)pYJt-dm&OQ}CPX)N98~4H}(#xi27$cQG0ha}4nbLw!O{#pF=g<(io+<sL
z9PDT6NAp7Z$xgLJKa85ukm`>$4^q0>K~Gv<PygpF0%ogwAn1O3tI+?ynXTbDW@|*V
zWiaH@bz3F8<3#lXh`NS~tEhMb3h-hkNCLj3$VkVe)9&Cqa%$S)rEPY?>#)^Z#nhFj
z=pLgD4MU=R@|Z-$=LpYtLLB;l;^{j-bG!!l1jFC{89W*RhTMY8eg~~m>IQ;IA(2hG
z`Ma4KLI7FP`Lt>w+3xU8xM*+k)<<4f^6I~dYRFC4?2n-T-k>N{YzXK@e&tgxLeeuZ
z@+x@BJ$Mg#{vLkbe}|*QkFDtp{*HAGR@KN#cKh1{O`)dnVMtB+&puLUXVgJ;s6E^i
zX^I|RY+6yA^tV1z>1PfE4}e!N8f~5TEDWuvTKsL>K(&S8@^EjYBCf6SpI$4exH~XE
z;O_{WXC+0za!)NQDff4Us=|BMG+M|w8}sIN&F)$*ty|1nF`n?BT{D_dks(VLWJ&if
zR;?&n(~^uv_AlV~Y5}ThO-r%~DoC=h|MQ|4;aJfQWfACqR0j*@6>ZbE%`{4{Xb)~-
zs=zck{%+p?28SE%fbQ<or%zjrysc8#0l?{#@j;CXz9de-2O3Tx)F_lY0Q<c)4nY%z
zwh@JnElxb@r1^B0mv&5zQ@m46xp)j@#yH8K$Ky(F0AzxkI%)Q{VULTv52*??PAbS4
z^N<rR$1&;$07Lhkw+qU3F^=PZ#5DhaY5#!j`bTW{8ZN(G^ls6*h{Exj^(GAR?*qYs
z^}~Gg2v$~p*ER22Z|0jvF@tG_2{P-i^3B&UlNp)XdJEq?CSZ^A%@cTPtUtBl2=GLV
zi8LuTFyFfRg!Pq#r7}@ak}wx0@`}I8Ifdh<gj{o*d6!uiqXvA9nb{TGwJt>s@c3ZU
zpr)K}DzMz5a7B3HE;G->iVm>m>UAZLP+`WxaPHk*^Sf9>)w-I8X%H-DR=cj{n>x&t
zx31@_225vKH}X{zW-zbwQh=u=Q{NtVci>4b!aV60VYv2Bias3A`D$E*=`C?x`MYXf
G+y4d5q9R`a

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_527413.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_527413.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0b64a8c616db4e3868334a37b9f83cbe8cd49b19
GIT binary patch
literal 11712
zcmdryTTEL?miPMoeqkQw5lkR}2?+_%B%wnRk`O{3&;-Z>=s3pLfWg>seIW^Rz3m?L
zD0b8mMw(Sj_pIV>tu$s6DU7tz(EYPa@5grcj5NL&ZQOS<YGx-t{Lz!%)o8T4y{E1p
z7-I71WM(v5$aSkuojT{#sZ&*_PVq~nQiego|K*>Cr8_a~_o$Lg*@?oFf5$QG4n|-E
z?!bEEU%VIR>bx<2uK<t3guOz5@f@Ntaj$qx(ksC+8$O~-lH2$ae4AiIzfn(?2*EaR
z;Wlv5HgNGaa7kwPpn{OTC%BgoqgO7)HvWhlLT1B8@{%%cd<pqBaK$!orA=Z}W^Nng
z8GtaMvWYXdbFFG<RdOYbO+{$or-NTs<{pE3LjRtySDl)*?Dw!<4G*(vQsdO##7((t
zXh7{I9xLe>r|d4L#lZ@DoKRrJ$Io?~IBP!3=CyU1yIMNWwX~Z%PMzv%>FzRjx3qV4
zTwtZpa<TaWw6OBF_U;xaHD7Ew$x2Ujw4do|ZSHPKQaNu$f+v#{3VirI`4X(}4n~1}
z#nT8cS=#s#_<i2J1ct}(99(`HZvJy{1!=eiw1f~$19wj$o$W57aXOz?PYW?@8U&#W
zXl=6WDWWlGlPBxYrc9PSJDeBNcnUVgkSx&xIv-I?ji>m<@Ckl;FS>Xd^yU$Pl*P0r
z$^9uQi)lq#Tbh)#fzCrMX}m>A2{*n3PUqcA%m?D`G15j_G>UXoLK{6hX+2p;8`EfH
z8n1BkcsV*dokE}_jF;)00MC6QjY?)ovXYW`O6gL%kdvY;tyd=AMYIvDANvuHz~bvG
zO;@F;1+^twbSX`hZ0S?B8FLyekr3V&-9z>ZX$0BwmPDoMBi!zqs&a+Y-0ymg@)sg)
z(tnLnls{(_JbLFAjTWYKy=4}-F>J+_qPeCs&4T!~%tFO;<mdm{<bOR@R7vNOe7aJO
zc`E5$bOq8aT~1eWI!3#M37}jJpj<1r?yAy8t=Mdzs7CL2YVB<7C0k~VR;A|CM8Cl5
zxi3ks9Xx#pdQ~anD_}#Gs+X1JX1X-b+l6-1yJ^WQ??Ssb?=63o^;=EvPMmxjJL{e_
z>&UdTzMeI`XY=T}o%L^NO=pt-wXf;4nNVd|r&}xtW)duyz(*@#4Oh?=$(80w-{oGG
zP9<HLqEks%d(zJ>O$M2&2|mHUFHQAHKOtV0cR5`y$2KTs+~M}7>F8y5kuCa5+spR8
z{QhB*wUfwUGU2Sia>MRkLtg6|f(#|q1dg^~%;Fwpg)VB?Mke6vM@=}XMm>3~$USTy
zq}(JLiAl=xC<iMWCtX9NWz1|RSb@W3Ay|=xv^a-s(CT8vg8-uHYFVM1a*;MxcpV7a
zSOMvBI7~GxzoVy{#V@n`6CGVFzpJgCm7VBG`14(?YO`Yx+-(yMo0Anehiw+Z&B{m@
zWg%~x3Hul;jklRe7ppnZeByMA`E1LT1SMAErbs(sGrJ}!^MHl24zt=cNP=oQD8WFN
zhJ{!nMydqtMuL($RZq~_03@g+x!*7+XpnFWVkFwdNioVKC_}Cqi99k^IBqA*Fe3Dc
zODjP|)R|Rp4B0$vaSXD;8|HC}WW{J`s33KNN+_6&8!V3;V?}5_ftZjSGh5xPm>i9F
zi^E4*-i>|m+t2c?E;q|}+np@W1rXPM=sn8fH&{7GAkm8tT--Gvqw(d^pL%MpyU0=Z
zxW#I#8MatQE!42fxyLeOb5b>K(pp2=#>Q))R+AVW1s3EUbdh6w$8VYeZie}zTu!sq
z1+(}@?ScCJb<n~p6X>Hh(rI&$Eg%`vrF#t&?8Uy-V@mbRdH?y~#EPQC+ww@GyQ7>{
zhW4*$c6r+#skJj6zb90(qAv5Ej^!9b&9g3V$M59&m_{3D3#l0WUPiNbA#bsR*?*SN
zob?G~y6m7dQdZC8)ib*Kg&UFMUCe<lM%U#RKi22mX`O8io(UV6!rG|5&L@4O&AO92
zn;Xmz*%?F4LJ4E2i)!l^ZZg_qK2e;9n$g!Vnwo{mMKe=-j?tV;@pyyDdxO!vu_%e0
z=w=RfGrDe{cvY$j<ob($QhWE%+@VlsSR5_b$4K{ikH?hiK)Juqdn%?-d0V~`7soWZ
zA78k0Y4%d^YS_*c9f)QhWHbl;!c~nfaFx-N`h@=>&v~TN-!aXag3ZC}QC)>k9Mk3n
zk22aSpXd>&?UMgepeK0YV?0zJ63_L8k1|D#Om^eqrKRpK_b**yn$Abwy2dnJW3sQs
z@{J#BLnlMIb2Z^p3-zCB7Y@vKF!^sT)qTsyRj2W<PoMdM_p91pH-6FhOVv6blgb}I
zgTc@e@n!SU5ObtG(s_+JaxFqoOcTXqQ{RJ)N;5O$9|~B5EgzSJx<eIn?O`)hc$mpK
zym)<y`m%HBI&-vx$?1p{mZT7_Fog|^<xBd{CYEwPsbLD*BAwkZ4)sO+>x-9}i<eif
z^gX;{Wv*DG7YQ^N#pAyS7i5=NIe{|Y2{hZK{>wpLuxn1jD2+be(~w6J*^I<53FHQA
zKd^-K!J)Y~Bc?{CppnsTp27j9X@JoV#I#w#@{E)CpL|@}^!Qoio}RENrfG`NPHj*0
zzYx)HMHp!AivLPrB3Kbs?u2n@vjQWt#bAI6)l93uHP8|~{=r13EO>qHY`BIgJjCb^
zEgoN_KI>e({>j<MnO^2_FQe~`8Hy8TS{!azDEky&sF**>7#f#KVcwLj_}8s%zaW3L
z^Vd~hRQ>DUp(&HC>hwW;7TJ7GQAo|?)cE9&zV|HdP8e)sJ5$gexp)N`OCSDq-`h;z
z+bdVEJ-j;1Tpf<~*<aCEUW(0zwV-hg`-cN$u<T<zSTXy9Q0MGB;SwfycerbzG^%Rw
z@m~NXrd0WO$!(!CI1!pyQJUhA%l^xOfuR0_iD2&RDB45AS|+C|e0)K-z>g~HVOCX|
zK%IX$s0&)>@)%VKFnpFdU04!)W?2${(ib`VHq-PrqkTK3)dw3A>+@*%;=;*KOBPz^
z%}l{zWJgDyz>bfR%_uvJvL?vjl;&IovukkBZKJ?duuhueASjPnZX_zK-0q}oq{C*J
zvJtG<?i_c(5yeWaF6YSPkcG0bBGN`pl1^)SB&7g2a1p{k!Wn)m>z4jj_8p8C5ZEN{
zk<wDPj>bj+Wozn(+sf^%+u67E9+`6wE%b`dfH$0sc>WOIrWbJX$Wb3!kclc0kIwQ@
z)a`Z_Exesg<C*aKQEW`%QPN8A!{L1NsAv@}8_kE~63HP<lS4*`QgCq^T;b0i?N8uK
z(%^We$SBRr1Vz5Ty9D@2K}zI&Zb=_vge-H<53zqpMZq~;W$2xmW{RgAG@PLq$8#HL
zHu1zqkmI%`CH3IJLGEX@^C;x(af#+r$WP%?#wc7uO0tvYXPQfY)*yF_a`Vn$pbLJc
zQKfOnaPLTK&2Z}(<V|5I+Rqvj-<eJG{n=b>Ou^X<ClRGhj*jN1B8q%k?9QfA>nPLP
z3!RERJ7G0=)SQKaF31w-TTH771+ChMi;g7UfRfDMOJkdHlH73&>|Ti^Bzc6=sfL;=
zQByf3P*W#rY9~&JJQ`XAcp7L?rSP=SqVZ^bSw6ildyr4)-jjHARBn<vtwWCpv>GDt
zU<nXQ2fg_9FalULgc?QfVQ0|N>XG!fhD2u~^@adEcwnVyhuM;nc1CEBJ(Jr}%1Vyd
zso92?K8f*4d{R`l<&*td_@t<SX84>2vDc=-%#_kKm>DBA_7~LPbEtp@Gh?L2{z`mO
zR5%T4UVay%rL>5a(As+m%Z0V1?!rtt?bD5IgT{@6)o6Dc$1QHRjWF7s)kX**IE@=e
zt#NG9O&JGl2^20CK`Oz>Nwfh?7j0Z@Q<#UFjENib8V1pd>4FZY<EGI)IX><psbrH8
zuxj6Em@Y`1_@pb<|45TD4xFxn>#fn^B#dywjW-X&iH}4yx-DZiBSGC9w^bX5T$FKI
z$RSSeYjciIQd}82*F3-D-Zdi(WbGKryeLD#$u+dkTT!Sbnb3Bc1-~cAS^0bZ^Bx%e
zeAv=(r1|6{lOOl<2Kg`nyml^LfWk8I>oF^^680&RfEAo?>279)T=0P034O^D$lORE
zqu1*tPeOr}9Cld71_;ZM=^d8wamP&vouFvS-op-;)#7j;fkM3fho~>wk^bn#ev)&y
zV6Gr^G2Fdinm0!cO^cIDgG}Ce@)WeM{m*ybeYf_%D1+a3CKW_|hAra|_2KjjPMFI{
z*@q@wli-BeL8B0>aDuxfgwPPgWJKLIr`tucLh#8@#0WkO^(-GgtPJ7<)J?O)J_^`Y
z7X$^k%RWSexWEp}hsca6XNwa^wt`ILX_U30><r4zqU;=Gtkmu{Pg%hCgV*F_a7RIb
z4jc*RkSs&E`%zYkI*1_p0Vcsp6K~Jvv3R^jFa*IR@(RM+&~*+}GXzPF9Xl4+z9L=c
z<OE<}fS<buyuCkpvGp8GTM#OXXv)29U%}1KRP`WtK9`Y{`-Hx!z|`FJRkb0a-W8Ep
zBNf&t<mz3qO49@JyqJ;f@+ks?!J(KY|DndnXpA8(-1tKlMpFUN1#JPu9!ko7YWT>&
z2zGeeeDB1x#?XF7Tjo6zlV=BWm*vKYpgFR$ISRSl7?bM)*4sxSf`gHQgHgdj-;tPH
z9~3RicSHnD5o1#na`}#!Ts3pZe<;YmE1i=r%S$4H(a5fj$Xi_x-@3xQb>;IPM0(AU
zYu1O??94TL#5@uy9gPBtyd)-9%pC9^2w3mfXYI@K;)q}@QrZ>i?s?eV$8`5ay80vi
zmdJqZ;lL;}FdDHqA|+!{z>ycP%9JyE{d=RbeD8@^TKSP!8`%4gyM9{zQT2+rCZ;ZW
zs4ivHrD0*{#<IF5BB_a}H=y^059IUmfA0Bt-_QCY70rygIU;F}sGDPkiid_;#!wqI
z)caMd>Y|W{QJ05J%j&v_q%NYadt@jKUX2>6eX8G8*1X^IP+7z%i-MLFrE#GX!Z091
z>$14uqt=*2<#Pwl%$|*?iy4XWp`;w<Ff<X)3XjZ>Mofp8ipCYmo9iM>y(6SsR+ajB
zv8<h;f#s}9|Am;oG~`~^SNXeQO3k_y6RN&ZVESUeC0w=0Tdr#SsB;PTw*FRr-h1+~
zKpQAy1i8R2fCuV={9tc*2dapIvQS%iYB6ix^Oe!$6U`|7%7A4>k{6zc745j&GuQLs
zr7-?Mf1+hzMPdj~J@CwX7B56=j=c)X#8(AnKAa0eXy2EIOJaG3yTUo)hvLxw4-|<8
z-TR7g$%D%I%7xl{)!!c>Cei-5G3dN+d*GONM6=$6df?5FG<@J&gHkA3FT@l&Z+wHY
z!V*g*v@^qM!=C&R@;jIv^T0-n?r0v|!}IVx0)poerbX|;gWH-oPmd2bKmL8ey@a3a
z5k035j}{U_<PUPakOYuC;_uZ<LZ!TOIHSdM>h%)cLq|}Ac}s%BM1&3=Lfj9WJu+^b
z5)Yon9qDCD8iM=U$KZd#C=*)n$O)N8@d6r>(MkQF(+ARX^`rP+`pMkuDgDrLT0zL~
zEAAz9^9(&HIX(T&TLg?&buX#=?X5!n|7NtB7Z|M;jh4p1iPE*31e^y-qVt#RLRlxu
z-hvDqs!75EFJ>abHf6WkI7C)X+1!-bYH{1l`%QeZV^hC1w4i|`S|@7+%05T!91`Nt
z4LwdHNXjKir&kM4ZJcwG#-k2k$ZJW*t2YVB0R$7mLkZ#J{0H(X0*ENii83kSt;gn`
zbiiXB=b0b}Fz%i>P^lDU%_u{f;9_Q^6P3nLmJ-m79P~|YOx%0Xaw^#5!n^~Rcj4#$
zZ}4`#*s4n7ZCzJj<#mi;r?<t|5NHS<Sk-2E&pehWXXJi41a})k4dDZe4J(r4-sZ<L
z^~`SnZtz@2!p(E8g~1hBllR0nP^BSQ66^|<MwR8>Q>#U#cl+o1y{*3Uj36Ia?y6w~
zCEjy^@?gcPLg{UJtj)PoI9s^9W8Y%ViuRcI%&Jz8vNT!Fh04Pfi{&el<_$?kLRAa+
zM>PPIHE&3=1)7v(q3ZMeh{d*|9LyllpH&A7`W0ovUz%x{T2a<N#Z-bRvb^owRlo%C
z6EKGM_EV=$nRJ}3k{1EMs^eFcy$*OHo`eTLR+21{=$~=X12hF!0l1IZokJvAOeEU8
zSpJ9|Ja4!_xGCF>aguZYNh@j|<hl*GT#ooMK!(W5<Hm0uayf{3j1wt&>lt$qlMdSv
z(hqoGs+hY2@^wCr<G;rgzrmEh#R`9e$-l;SuHxcb`S0eh^G@OTk#!k*t?2jnugeqF
zhJ!!v|5>uCz%;rU+E1@5xmE?Xd(VUF`RY{lBz_A2x5K|UoB*g2#Qva0=uh|<Pmy5L
z%ft5VkD2zwjAgOBqL|(g%PIIK>llvfVq(QD`dxaRk1FsMI8*2^To<AW_>Zu9P*u!T
zC0KTTurxS%m!6{|`MVi?^}3X6kYQRwF#B%dTp^<=Uzc+*1%hSGD%X`<RfXwt*4125
zgQ;}uTCS+WH2QT;igi6ElHcloxBp2tYI$;jhvCXUNV;)6>zi>NrZz@ZCGW~Ph5sLU
C7DNdE

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_540784.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_540784.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..983870d1ed0da3b4329994eec7b7932406bb8ac8
GIT binary patch
literal 10442
zcmd@)Yiv|kdiT!z{r20~V{B~3HuyzsUIC0T4hEZmZ61bZ7<|WO%y`D!xdub-Y=%`T
zX0lZoM_VzDA~8gjGAxnSsaEO`MT#5s2Ti4F4&%zhEvtIF{NbN>*{)Wrw&{27JZ)xT
zlF~|T51Dh%`Of*y_c-7A&i5VX@6~Dr0p+aWXO})P6U47^CtZqCjTiqw62u*XA}G>H
zj3&S2D9QH)Q^HXZiD3e#cuF!VnUao5Ny1J}>e9<(zm(7}nlxnl=@um_02dd4OA5fH
z1>my$@NpF-e_!+<#m1;YPGtX4#gxKMOctkk%zi0l0l2CFTy2-w3yh5m%3xtiW0&T~
z<wvzJs^VKZyPDF&&j3GTevEMwWqMycs>$qD(fh=xRzTRb898;=NlVFdEYP4uz==m(
z4!4Vw9iL|4YjbkagU62d9JL<hN{<X#hk8#O>m9TnKYVzocX-G;+&egQ{3IubkyG6#
zVT4m28656~R`;piL!7+l_+bA?U-xitdX<4O%y_!Updp0ciz=|XI|KuEl`NBjbSwL%
z$Oox$Z`lSj1(})U8_X1DW>&B=N_Ye4dMnu?dMF1^l;t7aVnuBE4d`UBH@(_?N|1}i
zZn^<-d#hNI-Nfo{hzSCZvK6d8-S$?q1dOTDeHc@x+g`J)ik0x#<*YUheF?jqRpyN4
zV6$axDIQ^~E}tg|n!HY=Avv;0(h_IC6v>u8NbL{i*IUDyJQB8s74yB#t_rp$XN7#)
z6R*`?5-$fQKUHIzs<)Oc4w9bVvjTQA*fsH|0*XkU9JZ2|s1`#pJPF0?^EB#M;rGPY
z^3r_yWssd+M}e)x&>LW%-ufIl^2uJu)>ER-#1F9DLz$E(zqvJ&=}hw8IMd}D8Jla^
zfYKJABzY~AwzAc1%{oo<_WF_@3~5{A^=)}&yh=QuU5nlL63wa&bl<drMl5X8Ytl&b
z29z3K8>MY*2`yx|DhcmawwZ0<?Ry)$mDe-&9@_!R_t<U8QC{;cIsB>C+7Irr=9hHK
z`<R#ZQ<J-&>~^;4Gilm#$y|T^U!jrQ`?Zu>)>68jODnH;poFXu^P2Gytp&Y9>ss%S
z^!iw9yygn~i0{TL<SEu+v9kZCo?^Wo)}HmYm+Ucl*4JZYwb!0w;raY*8{7W6&U!&F
zwvIcv-QgUp^I{zv@Y(U&_{{MXIW#qSPXBtog*V_#QRL;Vz<nMclh4DXy?}Q|4z2Iw
z1=jJvu08)d*!EmcbDglr25B60JjXHMbKIIp3bwi*f>zO#&2yO(yO~RNIt3>P3rS<)
zEiz8PI61{M?Vg}*Q&tDXiJWd5#Yt?m%{5_%Q8y<Y2N2WI&WSyYo3?Y}Yp{~t@&+e7
zJ~GUaXE<Tc@gYt)bYzfI^o*p!;2}=4HXi0A9{Uxi-Ni{<m+Usm!zpMtW23KIDaRBi
zPmWn>H>d0A?s==%dbIa!Y9&tRVQ2?sx4LH->qQ$gc8SyHKvJvbf>HzwIkPZHOh}W0
z&8Ak;X8NghvVhboY3j4q)EYE+Qi8^gmX_iQ2kJDARA?NKaN=nPWd(`wC&{f0H!(7&
z&5CTjWOI&#+@Jym)IQ58#%5@1iV5kgl^@{bSmtC?Ku>XEddfQH;iUBCB)W9W?XgZX
zG$-{qT*(IBY&=H@L!1!6oXlw-XZS%m?U=ZfY)bigPMQ<Uw!*KC69J`GzHZ|LG}y~5
zk0Rmc&2p02Hoh-}X`VMgPV)~be;jGK=B6)urfp;PmP@v=%Qohc+qKO$VRtbt9(t^W
zu}@96K(8gGC<d(1Gw!CRwohNT0^ACgz_?x3F*n%58#`LNcJ6=?PMw;5*-pFcPWmn2
z5ATX+0=CLW{B9?q*4`cn41{Xps!Ct)Q=Q?CdQKg(#dT)ik*8YyZEwIEIuX}a``$_v
zo5S66Zr|}=Np(+6#drGV`a=DYGE~_fH+A^sPm4<KoSr)!8jV=crj7+0+SC;<+8N!2
ziVpb|34<}{2)Cf(He_g9cq{rI+A)X>gMMkkR1&hp>bp>R7czB4x5j!;q1~sD=~O_z
zQdE&f+>VM{k)d^AXVi^429RMOgV>46JCUg~S{gevf_9A{(}-WbB31dX-Fz?9_*hz(
zkZD%rnqWzw`s4PyyXJR=Pei2gidH0V^&NbotWD?)!FQ0ZHXvTn8Gd?_7vP<UBgs3`
z?evSEYIL_90Y``ob;UKczP^7^7AFivp`wqjgzG}r=BpwtsBBlXZ}HGKHH&>{?=e(%
zEXm(1O){2#qz@emmCWr6A3?@#3k}h_ugPcwYCpJWMeW1LFyfbD4kiK<!HIC+LdTM(
zYgw}!X?B0v{?+b>yW^U}e&L1_R*dDLi=XJjhr%WEmm|kf)t>0YBK1x8;sn|^7&~D@
z`)sJnhKv{evV^H3M1N8f9u7CmzZ<cl>b;B7N1|_RkEH0p+p(dG=)lF;_*Jz3DyqJU
zOxOJKgt6#DTgVignA;OBN5-ZFX;k!uEh<H=2Nw6E)|1FE<d;4JBRd^99X!K}pzc~$
z??&ph2<pRr!PC@)v*FVVJxl7H%j!Kyz30n=U-duikE{Fqf+tE-!dM)v^Y<jQ`e09B
zHnch9ncs@EoBg7fA<txr+p>Txp(+X)KI#rJp}zTwSi??KwlmtbxZ@lBVi($TG&Xnv
z?YV%;E+CaHq0%MvrT;1w$rZm-5OQT9?Cd^2dJpY=Cw7rRdl*#4Ak|EAiQn@}s0i4z
zvw^e0E1{au#C%g+UGEp<F`JW%qOWa>(ue0Bb)z>2P#K(w<6zn^n@)j=>&<8L!tfVu
z3#UJCT2!F+eq=cMTC7J`5^Dd*7B+z-dm`1SVrR5HN`2iOop`t>cH}JDa~4&cMY>VH
zIAJh-cp@YUo}Oz8E0CcvLNC;PK`u1he>XacTKbUwEx#na(<9;Hh-XRNv8?Vy>ds%#
ze|_Wg8*%kPzhFgQ8akLdT}R<`Rql#rrEhy^jlF#V?Y)31FCe`wyWFX8{eo~wy<=J3
zh16YN3cgZ2RK(RixrT#}$)&)hARVgvgbX#zy&FC;_g<t1l{7_8F4W#X6BR^<9?H<R
z1B;s%J%6+H(aG4!k-s~G4vxe%r{ItkHmMwKoI`ugp|W#Gbv~ieCiEq|IlKUWOK{{Y
zy$indZrstNE_L_#xW~@Gg+Dfvy5OKaWrI5|84xHPF2+tf?Y66Sijz8A(@wY^IQf{{
zH90e3W9*!Swlg!dYb^IUpadxJ&tt!U0QZ*hmg!c}9fB26#0=?`vvQAtB_?6Y`f?s-
ze_;He=mV2i;o8QEebRmi?$XbFKPC%c0VS^z<FKN9t5V6QNg;l+`oPGFKPY0!eDlsj
zZ01#Y)vTHl;e^bqVKuDcayeX8f_?(1lldO^SV2DMm|#|bgHl=tJmZ*eUBP1>F<zA<
zQfuSDWnD>24m7@F)GP3k3=Veq!U`FDyYeOPBTR}Lx|S8@(?Y;F&WF<}nT6j;S?E%*
z!axyDKUr0drlhohC0r&ZV-u740_^M~q?Xq-a7GWXQqNJa5HqW##4J4irk}zlwJD);
zJ}j|zPWpj~BwQB2Pd%{VHBu`H@f&V|l?u$xuF2@rq$vqwOt&XZ=~nj3s?%7Rq+Z8L
zXaOa4$$%3X))e&QE|QXZ^?sw@<S!Z*Qi}IwUIT;A4qsRU=9bmMLn;YR0wS#GfC)6E
z3KUUF{NM|E(zDvh+=uBDE|qym1{#6_b5v<A3yf!^C@`+c;A1|BSKuT6oGc&t$FqFo
zAJ6bHZe(@e|0J+-R>I0yJ*E9v^5<|KS?v&E(GA|PWWAu7wqKcX(00lU*_F$jb(Q7`
z$5p$F&+lk#;<Os7?a$3nKgYTK^8>iT2XZX)Cj#i;(~K?X#a^iXLb%Z%5CTH5bP{iK
z+MWVrKrk)@J_Un(Vgs3^BpH2kqA|*G)gt0V1HHrDoS4sY=xV^FtDy2=uFO84kM4s8
zC)?|^O<kmH`)*X(rl+0PA;-gM-}b#u_n6J;*$0i}_(vGG0;)gwh>wf!R?Js~Peq0o
zEcdPPvNxkMi{q$tfIb4_&waT1_iw-b_W6I{3Vz>OB;TEuS=5ldUb0O?_DV6=;iG`-
zg>g*GxM$!pazLI0S(Xc~9WkW1kYP%O?Jkd-<`j^SFxRb4$7L8Ab3+!w31QRdGr$6;
zb=hYjopN8Z(^mJmwVh8qAkXE~RZB7550kR@A$=5gkKt+nSA)1Zj;pt!;^YpG^{Nf7
zK^G@YXR9g(bmdIllXMN9rc9+eIDMqe7$Sj`Y<h-C$`2P1!HFgyU#8DNGiO)uU+41V
zYzGb;NbZv=cXwzSW?zAyXB?csAAQ7XF`=&r*Tr=8z9TqHwKV>`<bDZ~)%(T%tHG=D
z*H*M;G3}O^>}0IrWE^Vkmc&-e&!zXJNVdhV3XX>+61wtbof+xOVLc=xVH?slKs2SV
z@Jm)UneU#RKZ``=z9as36Z*=~mAPtPe?nOlDtW9l$3*6s(wtCgZtn{03JLGZ=jBVv
z=J1J6Pv1NJSlJvCH6y-`DVq~o!|fjhegvsp*!XGHy{dRko8Rc`c_!5dxBumqPn+*G
zFG*Vx+D*&aTBNOwh{LmwwJkAOOHA96C~H_QYe!}6@v<EO&5CwYSc0_m5zAw3M@-fc
z({}vIP!>4x@yv2{3#x8eAmi2TzQYMvxbLyF;$GhqZD~Sf2zG=N^U9d97OCo%RgFm1
z7-@?PEi``K6x;SDYTEaYs{Jb}!-s8<O_W2lZmdJ9Ez7DVq-u(E|IGGR`i1__kH)s|
zN6iP8RNc=s`rziDjxQHCqvGbsxp?uexMsJn?}@Q0V2d<H1&<qd-#f8L`ucvU9Pk}_
zCejD%kf;Qb!GuhnkSY293<+5=4*?*w_0SI12Gmc?7Qf`SI-m~PmSm-oD*)zu7vr+B
zLhUCNb$$}(3_<;$DI+yNgzp%BqRQV~Z73H@R<{!R(x){|k-;x}zdH8tSiI&)!cdVg
zRpVM$@}dLJ=_FJJU-E2^fz4$Kc4~Z#_Xnu&5Dvl%J_<*0UJ@b_p;tr+yyBcEwp84a
z!G{KauL&V86n-Xpkcx1;k_~VKte6tx+mFY>96<3(e-M_8$;4G~2S{02=5Y|B)X6;0
z_27pk*k@DH^FZ0F;N_G-{FU+UlUOh7$^=2lKOuR3Q(EvUDTP<{3L1j=Dy1LnxS?#Q
zAJq@iPkyYI^usDy6{Y-4^&q7i9L*QdlbYAl|9Xo6X*Cbhx-TrP_Wz8ux>t}^kELY^
zh(8R277-ux(0>9TdKgzDxEg{AVv!ljW+6EVWxwhev-1-<C1dw6)-jvMZf&y&pA&F&
zvUtz&frcgVIeAXu>Je1*HC$l|!xrJXTRL~Wc6d4G@9P{I9RR}@dG5R&7BOwdFflw~
zQZD{NrEM4>VffGjA`&TW_slpMPx7k9u~YKCp296NuGU2m(-`K$RVIw^;Bauwy`H?z
z^}Gt!-03%A=HJ54^KYOJAF-m*`TAB>M12PmZT9v0JA<8}t`)t}*Z)kWzO4)>gT0~7
zaA%||+PNe<=<9x_(B5teG{IFq8R?#PFN`lK-h`_)KU7@?k3vJ?T6h%l9bVZ~d-weO
zd0(G@0Pc7oxupe(YJA6n^`V9pmD<<)OkaGba<1}mRco|(Nq@lCzoIwcDu<V2;rd8J
zw0=p}o#kXQ+_*sAYXPXDJIl#BXquCS#z*Bbn|(<=o`<3TRvj#umeig9(?lZ-JQTe|
zR7R+bzCk{UhKL!TfWg7ThYwryysf69+GLc!-3fmHnt`Wz_ya<!MdSZZ4ea;&w8J$)
z<6}f)x5Wu39Sr|o<6-Qx(=;Cj)8qUIJne9zi*C0wc>u5pLI}&7y>-Ivr0x?uGwD=e
z%1zBU?fdATz&tQg!gCDjRUt`|za~`wM5upBRQ@xuc~wFPWVgz1mahuzB&mQH175w(
z2hOir_--RnU31qt?_6!-yUm2oaGMRVtK0bQcEVu7#<tqRcU#k=ZG5*qwbXAraQB6f
z5U5f_&IpOtwuEI{!d#aq-IOquC5kJ4V?0cfhJ;jgi@nLN3ULP>;%`?5Dp$q01B}A)
zz+EZdl@Uedq1w>QU3Q+0l{X<%^QxR5P!RgEP|@AW`AVd#Usduj6^0q-)T?T~t04@<
zt6ILPBQ%CpJ>N7CI@2o8#j1&rC~uv=dHzKa9(nPOfFRYsl?{`m@i)@~LTip|YHlid
GZT~0xVk}7j

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_555768.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_555768.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..595938e1490d114971ae8496b1e69bf1b5535498
GIT binary patch
literal 13325
zcmeG?TWlNIbu)ZFhEF}Lr!}<vqHIZ)ELrl~TCXfWR+9CwWjXfJv}PnxqDXm2*|IuJ
z=wu6%PEk>53sbvWm~IQKcD=yLZGqJS0isO{WRar9jHtxS#6gv2fBdJ!1(F8+=($4<
zNy(JuY~26}I=1fId+xdCoO|xM=bn3p|6(xcFnGduJ{rEc2g81W8q!mcsyzQOj$!vP
z3Zrm0b~*XRFXLicHYUHUz>_fLWhKC5Zq=CjvU*H&S%YIVK4O)~W!{vWR*d9l+ER^D
zYyeko09S1QS8o8<<c1Ftl=dCPqm&qz^;#_Rk1C{eG&WKs$(VUl`VHX325<wdp$)nF
z24%%Sm@?Ap-2Gy&33?4;%}g693;bE(FE96q!F($J9pz<HdesWv!7iI+7;R3^({dZP
zZ+V6$)M1win$B^*%j<Ev1?2?~R0Q=KZ*`tL=Qt-6o#}D(w06DK+TrLtb*iVex5v@j
z+R@Y5Eoh<VVoNvl2>LS}y{%Adx!C%qpgq~yarQ!6OK+=0rF{SiE<H-9$l>q#`+8(q
zez33PGa{2}nKy-hEPIr~2o!IEE6>6$*#uXSg<HyMD8&?T50tTrKsl=nY-I}=8LJ3Z
zusB=7nx;VJDG-V+Wi3)YfU_9%>7_RG8KimuV^x6)Pj{9Kip-p(8e7hmAgby4k*|hN
z$+JhX<P_}U0Fsns&5{H!NJ_FqR$sQH#cUDkVJk+jU>Jkn#@G}jOB$6VbLLIqY|*3C
ziXnLdwoUQ#B>cd(&2f_}k{(gX=KEBvja7=gwtGt1Y<{`4yLGL0ljGRJh|FgNUD;r7
zV1Fv3u;lK`(p)9#L4BzntE9KUj+c*P%MgzZNAF~1?Dn->{TfN15)XDAcfaVN5tf7z
z*u~0U3!U9B=%8X0?E(9G>Z}&Q*GtBhA?OtB%|I1ve@XA2thLUyPP^DDO8K$s5%LM}
zj2M#d?9!iZj2P3^bS1ri_HM#yH*iwF7EaZhaN5D{c}<*ZHsQ4MwQ;Itw=i<HT8{;)
z*&24Q=o4z$YSHeHhuH^EvBlOVd&M192VQXfUdniyb=J%p(^g#n@^Lx$QfBo2EUlQ+
zhLEnX_3S=&&&L|crts`jCKvvGwr(x{ZH!W6@yPA}$|UcEW)*07sds4D&@a5)t289N
z{f47o$*a8jOxE)Gs@~@{^7|dV)K}#!MF818?X}VRe-HS-@#=rr9&r7>&-k#Hd%)cL
zJ~R6F-~sL04h98yc3e<6Ctbd0C=P#yAVWz{yLue14vI0SZ&Xlv{lheqf}<gf360bW
zGQV5UjWgaM#yRG2QG&wlby9-L$v8bjv|#c185c!6d@hf}N8fPM9>JOg8m65T<r)Jb
zUO_zwBmMj91*OmLWoUb&An&};E8v#|`N_^6LEdwwL(rYPkh-k&2*$Oy7D1Jwuks+O
zK0(KL{Z8h#1JTze`y7l{FrREWdAikcuC+f!Nie4b@=o|2*PZ@>;k48UlA<b21c6cv
zq=_JqG!bKp)?|v3Dcw%d$pBJRB<_<E4F=tx7<3>pYE+;QlF_09g^Gf5+(kKHM(CB4
zR)eZY0Kt@*vSZlk9u$lN6R8RK9OHflbT6)f!#g<Wqy0&kZeW6uW{LFV@PXR=f{cM>
zVMYZtGn%BOWX2o=K0!6PPb8(9tP|hLf#fSmOofaEi6_1puVYluh}B7`;R6Eh6J(S7
z;IB@QdExD?6EvW|BuP|D5>+7q9h9#TW=wvS=eHMXZ+V$f-?(#tt{rv`j5__pUQe}i
zi1zqveat|upB@{pg;s4!Wqz<%-=LQns~NxT0JsC}*6;N=2E1Usjg5^>2b!TrFr?5&
zX~sjlnX@1tS|6Vk)+>np=P}G+nr;ubM{g_>wqWa1v-Q4V#t^GpHtz_Yd1|su2f~4v
zZP~OvczUIfjJ3>ogPkh{6~T@~@h(nL_;Y=JRL2!nB?v=A8|~oDRXkBOcWJ@ISGVy*
zTL@1WEs--ExsT7^#~b&}H*?22`Td=|u`?u36qJT_U*;FyZ<}e0cFgtjWe4K<O(E^m
zf-U#^X8NLU&$;;WrUe^cemGumWZ^bna5|(*GV0{bdw62c-0(sLUvru#PNx~w@%eSU
zv2Ok}cl<oxaGp1w56M^5MCjI?Z$zt>)Y}sp<BHZ8*%GdJzy86&*@LmJId!~rAFtgP
zeB-HBKV2Lyj?_hl;@YjyHkzkhVOJE7HpQH?N8-la!M304D-&jG<Za$u8CI^Ct$*2#
zWaY|h=j};3dGnEw@;~&235zw-{VpDDh^lA47CX)t)bp15`M!nT@7FE#@r|wA=}Ua$
zCEju=q{@vtv}ocFbaGu6mijJnU4Y!rU2*e`Zr<V!saDK+5&GShs6W~^<5}L-%ojHE
z=H`W_#fBeR7Mu9P=axIJ@rSSR=4&Bk;&;GZvE+THCE|~?&6Gx`c#9o`D=2xlE=on4
zX5Nmu_=4K`wuLvpZ(C^N8{S;}2H$Xz&+iLq6M4nazF6-^b+JCayn5cmmmlZzPJ}dH
z62|Gaa9gA`rk&4QCK{g*%{<ZkUF-KsJ}Ze6Z-(%vn<9XD_J#W*7h}8UE0+xio)`}D
zhJ)YT_Pwgls^W&$knHJZ2w<W}!Lm@xioq1Ig)c^~N9$$=!;X+Fu^zCJR~WS>)jC_s
zfm(~3`Mhkka!Ix3T?=UvxpCVTz5J02T;JE0uD;Fnz0DtXaM%6(VLzYe2YqOC)0(g*
zQWUL^o&J%g`e}Ci$C~OD3o@wwnf~aFSZ!Q1nT^cjVsaTCJGeG5r#{}&w-M&x!i~ox
zi`##QFYe+S&vNZo`Npff<?2R8^xgXJ9sKOzV%Ha@_~A=j|J5bOHLf3w$+=A3<PYEE
z%{MnPsaF}fxq<!T8=szed}hJ9SP^gN;<_&`UFzq$`}u~;+|?m&)XiUY^9^o3e@wKx
z_q!kT&-TY|%+<!r4=pr&-?Grem!Di5;d(E8?&Zrb@Oc;iXsqx+at%K_&b2$htoS^~
zhDLa5vFo$5UnqX){6ftiKF{^g{9&5Uqc=Ce=WsM&0zN6o2fRK(4ndG$TzdiwaQaFo
zw4fVvPD&@S-sSPrjGK1eq$xq|@{GITBonj)UeCzHkkd~KDu(t?FrEPv8AwkdRK(2d
zJ%}9cR@^1;+U{elg2E^8fR@!lUJM(NaI@Z5AZv54;-2ju8PIv^SY=S}PvvSL+m+7F
zeiQPcIY$F-K##_<id_AaT+C`KP!{uE1*^PgWAR*gS0L~V5CH>gpp@c$+sMjt;pHAZ
zx*JYm*;x#vG_tzU5@;FDVw8$CzK2n2R`(wE*XeHnfTN={B90nxv{KF-;6&JlvZUfz
z9ZSGieb}~cEIyJe%O%SN&5{bs)em#YK`Uz%K7wMvb&n)3WT<5??U(t}*1^g%cl{A!
z9YJVHnGU9smFLoWxMC2`l1u(lzH*O_m4|I8f5Z}^o|7x1_7(Wyn?Ul(mFZ*CxpEI!
zTfii)CD;Yi&Z>Rqz=BEEL=mi!!lmr(h()58d9&DB94UW@V;(z<$I<9ynW7|G=mwNF
zz|PPF8U{2+Mn)MtATec3wTvDOv`nd%$%9jxfSFYRo>}aX@GQ_{4p>4JAu?nelvCDs
zGy$|z^D;A%YSPM6X0#T}G+;^J@gx*@Q*ueV4f++E^eZ>%&y)HG707o4@&fsRf<Pf_
z+C-Y%{TXR;_h+QZ-M?O%ErFsyaiGLAPRTcz|7+9F+W7;&+!AK^<?erF4W#&`W(eNn
zrK=w(-2fxa559-VHlb0z0Y-+#R<_isXUm*KmWP4;u>Kh-Uk?HAfQ^*B2p!q_B22Ql
zMhtSjHmRSrqO*lHL9Q8mA*(=MCrpCZ06$Kd&=)^;3tI%=yGqzRHlHnE3kUO9^Y88z
zSuLw#HLQioe_!?IID8QYuR!6F&%{B39;_0p!+iKH8IJXXj7iv}ydS%T+Y6i|9FjV8
zk!=|tci$$Hw@8v6yG}#?!!tzsy(HvUNI2&w{G^}u_`D1`Nlrk-Fhur>H&HTq<@AwW
z_>w#3nxZKZuB&8A`<rCj`3q!s=gF}eU6KVeG%*JET;CzFiMUQ4B6o|)g1uxi{@6<<
z(+_*eROZ4?x(3NiEJC_`WQW&7rzrpt+U=vs-G0cbxKmNei&SdT10do7rm1L$@$OB{
z8Kq;$TC(1rMua)OBI26d#UW6ZpB|za60{&yQ=0P*l0MLoH0KPj%mgKckbB6wy>>)n
z&2%%7n8>Gw?51x_xEN6S3u^Ls{o>fn)U!gjL*xZeS{8tGJ8wgpgWR1-)sRP}MIdX}
zXeJf)9U}XNX_S3KRx(aAC`%z)3nGEO>I401F+L=BPm;G>ZZ~<ICda&#YtThgS(BGy
z$29~!Gzuq0dax2SIp7@|hlTg}#RcjXgUl>Tx-BX0C6)xr+{8>spL2{ReZ$UinsoZe
zNs(8_R9!~x<k*DIkLCfX#hZ{p%%S)RA5Dq*O9p*WWYCAhDNDDQ^drH_U=x9Ej!qS%
zNgYWl8kykHXRt%DsnSjl>_*?j__&wxr&j^+>KhMC>C(n~bjqA0a_neo{~WD(MgqTQ
zCr}YY1&ZUIp<K`a%A!gS%H^SR{P__m{z|^tuOY&4Vo^BqX_9XV<6+sLya%((I>h`R
zBxF^|)RdqYpj<cY3PI7{+S?*1#r@47*T|4i_>e$kFc@UcKt<3TaXZJZQ_f>kTb;-S
zK`InwM{AC_y#r3S?-*2){r`l<mO}BHAohOYgVNd3*u}ZtdHaWsc=6GNiN!&_sGT_n
z{m;-H!LE9Fy3%febS_$EL3h#Vo}gP9#>)sw%6}Vy;5OrT4NZ6_AY1DK>x0ar2W~k^
z$p1nXR@E!|K|u$pI{$5l+cgSZ1766_338OwRV8z)3_1fDboBv^Oi)fiMbS51h>Xia
z(UW41&c2O#3t_dRq5~D3s5p;`E>v`*q6ZbdPzYL=&vDZU*Dv^?jFj3XvOOPDiO`Ih
zO^nj5%r*p6!S)6(p41E6c|fco$bkzwxZ5R@;nxLIx}LPLtj^)AI%IT{#4;oE*8)<*
z*P#usA4drU_+yF6*qW9{AVBq5eOWCJ<Ae!h85No#I#6EnoH%hJX>vrip)v2k$gjhn
z@4vuqejCJA4`G(l*mlmmGkE4FkW{i)eX`}lExcxDNEx~rxjB1lMPI<_%b!}yxbpLH
zYZpg!C3f3CQGclBH9JB?WH36EFqb?rlf0RXSs;NJbMoe0kW8_ZLN11^{6PCq%PY!*
zXF^|3SSn&R-clJno6sAl4~7p$<qx#8+9kb>Q`k7YEuk-nZduZkoZ=d{y>WhI{tDM}
z5wcC(MF+R-S{$HyGNHFd2JRi>6wO>|b6n9JI+lQBt!hcXl~bILRn7I!o#UF?zECYr
za^(5A;ykC{x)C#Cx+&Zg8MyD7aV_a9I7J1guUOF;rfb4Aaa~F9WFo8nRBegW{N0WZ
z_CDOZtgcO%%Ac4jc~j+_GB&wns^v7boT(Oa$4`pu`QrL`aYNX+Vk(cRc+<`~`;uut
zr`gY$_Wyi$?VnwEVkqYg<x%Idft>FOo=O1Wwk37x!?vH8iV}o1vOlVu)pL23JhA-=
zA?BUy=6dF<9`E6*kMett{fIceLRi03_Z?@n1d@4q+j(Ng6GBWIw|wOMd&~UU$LF}3
z<NV$e%S6kn3NsZ)-&itk4a*Y7BB=(jo+T3*md6HG)tHj_r4Gxl2s`Jh7Gz6RhaPq<
z;=#6`>Dz;E!g!7L?!=vmZ{3R6zR9i-hUwGc(~+)kpNm=^6wMaJZ10uEoF5E79G<)J
zx1;lQpEf^kUTFD;!>e-HaUHKY9MVNPW0&VkRyCL*Pt3>L;zU_=@WI&Z*j!6|Yt6js
zQ^RA!f-}DF#Ny5$RDWL0o$rdj(GBB!a3IhbGI7P#bKm&fw5r1l#?X!F$?#+p|Ms6m
zTOORAJss<M@7$c_lcEoc=53Ekb1^lBZlY9wv@33^h!uWN{;+)RM%-36f8f)jkB=@|
z;`>joXSHYoVe_}#KQwbF>imnN!M7kG`YH`jRq+l^QIJ4o;g?$DbV<16iME8-mPG3w
zG|x6aI5vCiN7|~Vnt}+$Yf53MA?cqWOyd8-1W_VF00{L0WC#P{_5=ZVq*y`)I+A7K
z>aG&4Zgn?SQ1*03?Y!}yl|LXpC*nKW6NMFtqDoZemp<PQIKP%-x;?AS7-0>z|N3C2
z{#ze9s{eIwi>#wr{%_67PMLZD0O<#vpXgY5{u?OoV=gQJ$Dw$|!~?Q`JfNUt0cF-_
zdkFB?KjK9|4oNTh$BIYj_=P8++GLE3RYKAUsEMPH1Zb4{D~;0lQ(WQlp<>l+`bR1#
z1vir8hbD03t5A4AsjmR%fKHsJCV*#gM|xTJ3_;@RZ*WoGlokSdN*5qrK|_$7N$Cg0
z2=HvGAL1+NC-<lq^uy{|g3^CXJWA>2C3-T5disO62$-$$k)->Lt-|z2Gh6d3%+`Wt
z%VH4fT086tF`Q>E1Bm$=D*91z2^C%_;O7V9sE%TOLGP!1e#d~*M?325a;6V;WX232
zbcJ|Nct%0}*%zo^L_*YiVZ_=nFq>XIFcJg8EFSv-h9bpmyav0HaUqxzJ|j~eG1y@c
zHwf0nAl7bx59zdT!tM7ZLn;zFlW~;~)lgiuK198VVCa{T839H2xhD2XhFTU;1#9B1
zX&9)6tBCKvp$K9tMsu)jmB4oH=M~$6t)T;v1JNe<d=xzUrN%I=59=eX(F3sqb4?2e
zmNjn#TfWqpruT&RK$tZ$*D~v!A6(WQ4W8TpYABA{qCK(7xM64T)Jl2fgDbOFf^DI8
zUQq%pchvF<Tkx&O&gd>U$%Cz5S_<!%&6F)|-M3J<Y&j7;yJE>lMV2gY#dgl^TG+X)
zX~{@3604fWAJzg?*OHNB9aNHJzUqq-&PgvD26G7Xf2xD|eE6>V`(`@lUp6$nz*K_~
zdBG0xvIh4wbV_t|oH}*NZWV2nc^d$NDS4T!al_AbCgA50f<~$_D6@`!{o{wL7~Iz&
z6~&;FkwK12kdL_h;^!!zpPn3N#9J1FJ{$;g$aV;d>t3%rxebsZ3i_n+JBGY&>O)Kv
zNxGLpqGG~LA7kDHJTO(v*AC^X9LMorV8l-`!_Tm?pJMud$F{BD>boU(N>*h)9Isie
z!Ql4<SHf3TYsKb1titxdJ?mbr6Pxvz**eXJ+134GvjMZ_Bb!@o6q^U6-X^ixoFetB
zgQ)pjj>(7=6PWP6x`e$tL2h3uDo^AWCkjh{S-|4BHK8W%vUk{3IcmUfAg0U0Wvfcm
zfQStC4r;2!rUol0iB?7@9<Z}4SF(rC-@B?6J9L<(I9l+aY_^Oy?_AZ3Fap8yW(=za
zv1!Jvg{u~^YQ>D!)jYA9kD2pVMJZMbF_r%Al{;6SZ$UlJ&nht7@GDI(j_3VyT!xv*
MxY2e;FRJ^008ZizKmY&$

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_634902.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_634902.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fae6b135f80e2baca47072da85611e2206181211
GIT binary patch
literal 11124
zcmdryZE#apcJJx)>03{dKjcpt8ykVKjcp7hU=U!ufU#q2hsAhMgr02V56L{qd^k@<
z>Ci!<+p#>;4sv!|L}q6q3NtZjX5wvs)Xkr=*-ooxc?RW`9Z16;|8qjx+1csWxlf-q
zGK7S5X8Sz4@7{CnJ?GqW&%O7Y^ZXl?N{+$v+2UWH|GO#-`wBJEPeH2k?4NNAyNOX4
zg^y!{$u~ZT^KHR|a8QIJm|$EyAsLiRNC%}j=D<g_X)@V2C3J{Jb=h{hMu|3ni#LEv
zHh@bvfD`%Q!%9kaO>{RU#-Ln=W&fx`O76f$3)3=Y-;`nlxN-xy${}@ZfEyMVfiR_Z
zNb-;6u^PZC`I^?DqDc7Z;HS?&V%R_#u89ZLnbj(|h7D>2m_w79r}heNE?Pko>NX2F
zqG!_Ubh~WhoOr+m6;67vtLM;h>v695XrHyOqqnQ0+uC#FNMA>PpS8cEyRYXYCj-pe
zmXm<t6i2)JJD_HHyW=n?JJi#CY@pN9-;t(r!j1$_KLk{S@Ow51R(BKgf?Xw_Q9-(v
zeN*_|6y9fiNl!thXUR)?3Nt-R8G;f{17BYmQ{X9QaHfROOp7sW8bn}988Th>l`|ON
z6zMkLROz~}!gVr-qbMtVy2gl@5=1e>xAMF7rv$m9n96C;m`?&yRx;W&_vfUnWRy9$
z94Q$iQ;aY<yd`M~vu_G#itnaY0&(}57!xBILprKr40IV|${C+;uHv<G<!NkkiGhkZ
zS!XseGM-*FQy9WMf0aWozdZW1JiZ#HhAHF6Zf2^$y0JeIP*`&RFq=^uL6Yrhup3|P
zcj{G_BSF3yl{2Pwyt3M_S<98tWprOliSCK-B1?y7RF-__mflQbls|tnO}>(`l`XGP
zx-zr^IWpG0CK=5ykx{^GTBpIXjGoqMke9G}UGF?=OG#dfcDKGna^a64`RlQZZ6Vxc
z$&vnLd#9eMXNXtWJKJ+;zv`~2-*8uKe@zzGz|^Ns?(CV+_!5bKs1-J@ofSG^{y?lS
zpX9H}3Yj8W$ZS(!zHLmQ=Z~&#VYZ^3ebvlt<99f^v6`4I$rfWyV)=VuN6u;~*PeZ-
z#Z)|Z>Sph?b!P^n&YUJqS8MM{)2A+;d)NI?9?7#a%W22ex?E0Iu&c1cz$RfIQux>w
z45I}U;lh)5I71+~ulYOOM=d#;dDWfQyw*l@&ia<uwDVeXq*Lcvw>3JTWRxVm8or%Z
z8<OkK>||QeiluA>i1^xasJ`k-tv_wDYt(ji``R@!%e!gh+^it4as|~!;Kx7U28$+a
zo-t1B_MUgpDfsGsGftyvuKW)?Y2e?R2~OZ0=j4;LdxW-4Se+Cn8h6_$PGX~Nt`P@d
z-JEn7K;D*SPVDizX$L311auwdU7WCIpr6Bk$_Wqk^l`$zqureR&_K$~?&H*J{cTR-
zaa<U8xHyUHyu(I$I63Y1+UP4*$~nQwk~k~v=Cp?_hknvwJ>GFTMTygTytI>YSlv@z
z>p7d(ex4(9AStT3pcDgLPA|j~F;b^sms6B9nRbd!7LcNn=6>0lqCvxoV>G&^XelaC
zAV4F(h(_)YC!TatR+tfbC8Z@$6%FPz*(qDk+s21E36jI(;E3ehpeFNxQoOJbmpK7F
z!Aa0k0y!}~VYPcWDc?jDdMrhOhm55#mz&a+9h?9fg3CKNvEA*lUWCPSy5J?C$5KQu
zbNFRWksO|+C2+$C_YR);q|HflG9JrUK~nxLbU8*i-0j%~b2WXx=l27Rm)!K2XVPYO
zG@iHF$86s7Zr66(h{NS=^w9Q3uVZ4e5n7EYb$P)SJ;QE#qG9ri72sB|2d~>@wY$M8
z+FDxoG&KW;Q>D6(IcS$-oIVZ`q6P9Sz=HX)Zw;7AGjk$%B3u<$miap#X>~VMv#PKy
zt~L3OKGKjgzMwDM8`o6&f08IPMJ%&!f6tc+LxR+WPDd)(f<~5XoZqrwWt+QLvMV4-
z=nKQf*yf$AaVM+axj@7Y^|QPCS$%(ycxouT**V)8J{C2yWzBIzOF;IB)ZZ+cEee-J
zoUE~NzKS)r#L3qAD=c{cNbx)>*@7mPY?|M_;AUG+u;hshk2coW#_HP^ierZd*gXTR
zejq?Rk*PyP!OCAW-`X>`C(;|0#!H)6S(E=@LZu1S2G979d?~F=Xmx*n^5&`8Q{l5w
zCtJQNUa*_h?hcBdXmz2pthPEJPN?-EC#$aXcmA8A@R81N(>!YqTf&#(y1IZgK^BMi
zv*cC~L|6Pi89p2?nr)06iMD=BMt9xrVRbFgXG6>*(D$j}snFZub03hA!;zx7v1kul
z@g`gF=EBG#^|@tngl+GR_1f5W8(UyYlvG9a-wJVc!{dggJLf*peOhwA<gRN~h{+UB
zUqI^8qWAOO#Y^n|p4dqnyWbXbOtI}#Y{AqE3Bu}2XQg3b*ztiS;*E69xuRFuigvcR
zeX;0);qwa*idai8Tilx{ulb-iDvF$9%eT)<=DmO0JAdiEhArQ}=mA;DF8py<_pcBB
z6a6pKzn=b0HxgF;^v9w74Wj+61XF8gP6tniE`;mis!ahwg4BmbXDg8r6}^v#Tf@@X
z%1B$Z=3_iscN-S3IUsqYRL^t<J3~jpCqKX=tr6+mndpAD{0-Ld#=^-((Py?r>95Yj
zj-O%oonZ}U62{61nwzTraec#`gZJo<rteJO<)<cpqBDf?S!5Z7<q-{A*cectee~*@
zR4g3+tZJc?Z92@BAAWEMsj?S;+}p?Y_AU3n{jmQm+kZCRYyAQGd=(B~OE7{=kcA;h
zK>Vem5bdDN!NKsR@YLK^R#gK^eh%`8kk1f7B2*kc`2K}RP59E>@z~Zk*|IlTa;<gS
z*>*ci+F_Z(b^k8JWz|n#H1c_4zQnd)V#!PV`2RrTS0$LCFib}*a~GrJ`|r-_=5bcv
zJU`0n4#2t?O5WcQroy{sdm_Wp{*QM=Pu+I2hMn01s4%iAY0$T~&1=|A`&r}u#kvPI
zOK<f)sACVFj14&0gAUf{NL18Cks0V(AGfyMKllm#>Gb{Szv0b5^Av3GeDHjT4qIj~
zM#$NBBZs5aadksLm{6)h;^0x(SHpA4$P`;#&noK!_zSglZqe}Bg~g&@jm5govh8PC
z@+_Q(;X*Xos%LP3W3&YdP6+oHCxlxJE^*$Iu)2qbJq|B;680%;5(M=L+vQY)Q#f5-
z2R-hvU35^K)ajZWhZ~2J+1;+usS%sk!AWR`cZzn|bF&(yz>Cl8U4v`my8gQ1dcjSM
z5mDF_?vpVxkB-4ckx=WNA@Fc-=x-F<F!<!I?TpwjJqG@BI#2n>_y(hZlTU%hFrs`^
zsbo%7h%#n3^o;mM0fXo3H-z$9N}q~RQ6l7#`qYe?k&l(Y?T6$L=g1+aBpJ9g2d)ej
zj18sw6FG1^Up|u&<b$GU!BYkNWFRGSO4mI<$0&LJkw3@&GLyUJb(LpyewrDc3ea$#
zQ9RELq*=ogA4PuMx+kp%9}aTA2ruv=SA%~Tp%=M?{F65$mXeb0WrX?GGN>Qs<1UZj
z7zVl!=9^Uxhdfb64mM9@Gc34>WoW->PC{3KmrT!u$!42{j4)Wh=eLx+B_-vQdJ4Rm
zeU$IZ2$RVhyI?o?G`xj^F6b&o>ZxQjl#+o=e>(3un*L&w769H1wzf|?w}@k4_bMa{
z#HuQn23qP=OYI_{rAf6k5XVY<T1Eo>w181(`jLRq`pAGjU<ecp3n|?-!l&~VrI|B2
zl=^2hkUa-WfIK*8AZUOYz^<V*DDw^{1IcJcbH5Oz22+`gK8m6@=%Y{1Wdpq7CHR62
z9?5}y2RZWh$;y!*pOqs&J}Zaz)prCVV<Zg0katsBgmu;QVdlc_={JrJo3e+z$>}jo
z+B_ZyWpcXeO%Ud~Oxa`KG%@Azn$9^=UHCYeM!SSoK`~vPjlnWK_wF;Lg1Z$ABI@bV
z9@qF4lV@sj(oK8QC=>K*-q|)?n!0^xcV>M1K2s7ny%jDglg&k$;GRmN&%^D5L^OG9
z6AlyQy)x;jH;uTxrfD(Xak}ZKYjVoV*I{tu%Lg{Bm|!9+2T<Wh1xl{0pfksg(gEoQ
zZEZdLp6!L=FN81qL=_am_QH|o)1N7Vcu+7bgar_E^Pw$d79`2Yixb%?=S8!K6P@Vj
zw{T)U&ZSK-mac@tg9I}9{eJowR5)VqxNYJbWow_VuuV>mUx6qe1^x|t$K7_@xThT|
zN&Iy*7Tv$U^JBj#yj40^8hJa~KX1NcjT`qZOf3$x#V6=4z_0ulBr#V08wwhInl-B+
zx;<~3gwzDDUvLQAF0XTB$~^@RffF<eLA496elg@PAblX|cep%mniGS6fYKW9YHQ_$
z@Z#hUdU~%|$DL!)+wO*VlaC`IdBNu(%!Rx!LZ1MxbT=w`Q1KQjdQou_6@94ahk}zi
zA@sI^3j&`a(<un07p6a+@=@qbsBa@Gs?Y!lBm%%1k~s#r^f68}0?7~BhI*J#!7CVj
z%FPpeA2@Izsd8nmqUnp!`xN{<U%^53dq1{Xh>@j{nwYlMfAkB8aLrpkD!Nm|614$w
z;9}_F+@&WPV@$I-M%ZI@_BfQ9&514MkEC~`EU`JD3=M}z655i7S`(`^MMwxEBQ{oB
z2eBks3Smf9&4<R@MpjheKN`52AWe}SELr0}mQWOgi<T6on8*^_WQjwmFeMbako`t`
zOtd>zx;rk~9cWJ|3}MNVq9P{R7c=dPL#e1pDAY51f_uWkTe3OXlA<am8jEf2iM`eL
z@U7GATc;nq8ymF7-myP?$H~6qj9Eux)njq!qNqwJlry`6yF&Jx&ROS@qB16$h*kH+
z`Uf8NpJDsY#QKI}L$=sC$HQ}D?76X+Z9G;r5r;mC$|rKwOhd3CE-&#PO61fZNy$*d
zFE@W!f4hEJ+L+LkKh#vSn(C-Ha(PM97$X{Enk@95_#?#~#U}%wp1FS}R%c-~mKb4)
zX)Fn2-9uwDYiy1iTZ8JS#<K9)xUoK<267PztEr8emozOgq9vwj`EpC+&juc<%2`!;
z*tV=P&G-6`BtVAFC28sH&IF+jctXc!kH<8XEMa;`)WRA@E=2Xw(K}-?^B%VDjb-9Z
zh!->!5#5ryIw(k}%hNT0RWE5a2Zaeju`0vF%CD7}p)zQTZe0*8ZGGc*?;`H+{H@}I
z|L{{08LDALMZhkEhg!h5AB<L@h9oSH9F1OF(BJWWVKN6KGpe8}WLqYRqZa_px6Z{0
z<3{x_N^1f*A4HKqQ$(v0gp6<K{#3b9Rr83@h1!3)^TWNj_r{5)1O#n_o-Z}uR*_=K
zY7M5;`IBda9SlD6pu>@O>VF62P0We;;H*O~yASsXd_tdy68OY9sax15>mUB&7eXK)
zyeGPwa+`dTmy8iGVoHqM1AY{e03M(8dyOKz8D|ZyNhw2Q64DTsjOO`l2Isj1o&A(_
z2sr!X{5%OCp2HpKW!*CZ?)wKgFK<c<J_RNBDZhh;<V;#W=mLP}rTS5RFa6{n^_+ef
z1*4=C_mp>2x<TRF26|HQdisO62$-$<Zd&&n&sOvQX13bzFk2GMmchV}(RG_eyc0+d
z0*F3?iqok0DHPz-Oi?y7&Pgc8MW@}tcjOdahsSHRLyq3M!z`rHEt(y-f;KdeMEhig
zLd64w=Q|+|{V-y!YmiH?8NSHyPC^ck7Jwn|A-7+vSxh?-Oblso%EjO2v;zSoUfz!Z
z_eV-QJX7OdPts37E<(~-pivDu7VF&>^iLbK2Nf9sJ;*&?<5VPl36fXA8i(Q<^o+vK
z^Pk{w`mrZ!t-o_siPg5SqD}seKwGFSyz2?6_aA#osAd#FMW`d(206)H3vJ89LBHjx
zTr;yRxDEV>(Wqt4JwLoG-{(KH0aRrSSB3i`)p1p=|HzZ_>RUr|L;lXd3071BEH^i@
zqAGt^s5V^pM5*$3JS7Wnmd%zeRWvOWE|UlR$DWV|ROHCg6{(HZEz~X(maHVBk*)Li
z?M8sgEm=v{LDQ1VZ+%b_vpJSk!+8YyQFSnHSXQ<DUo(w*msPFLF(oji-rvo8<7Nn_
z!5F%`j~qE-CV5+>&jNtcB%_6farl%t1)p~~B3+|VUIFa)%B0gZLZfX&qhpH`jyk=3
zg3jZ0T%M$P-<w8B5_$rmMd#e^@#F?TCdet0W^WyFk5hLrUYK;qG2y1B#vSeSpFuw`
zQq0o@<*E?J@vkuDzhbK2Vr7r9O;2#?^^*5WRs~%+UbQMmx%Hvo(5fQUY}@_m(EW5%
ziD`8+OpsYs@mM9cZTm;{cj`0E!}t;WANT&l-V{KcBKD02b$=$r1j-bfVFA{(BVpd2
zFx4cA%M%7;qOkO9{b3x}C8Wyh%zMnL5H;Wf&rDgcY*maJ;KaeEK}{*&B(Q>#aCLa<
z7Bk1hO180v`c)Z^kYl7VTyU#wu8h^zt}1w#62bJds#O)=RAairRSjR&Vrtzg$yarl
t*09P;v1-61it9t~4LvJBm}i3m3|D<a^y9ex>q!BoF~!wY?<sg~|1VV(-LwDz

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_669031.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_669031.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b2b68f825376d7ca7f864eb226c8c9c992622781
GIT binary patch
literal 10630
zcmdryZA@ENmhbud+kXDUK)?<JVv+y}3FM<qLK4E{3zh&OAr!CiGXyX;c{U-*KCAAk
ztJs~@#7H~BRF&dXBaPEkD%)S~Xr)E{Rn1B(-xvw^ZB|QnGC%T<PG(o5(f-(TpKa_A
zleC@ANV|```|dsG-gC}9_uO;Oxz4|+)d~V0hx?NozqJv>Z*ZgVnDUhu|4I_XB0&>0
z=_Q79Uvik_+kzS4u!zJkfmb{u8J5gQhovOpA*XZ&GQ}?~^oXYP#de`ai?)G_w}DHx
zflIf6%gV#YRkZwl(c`=r!wNZ3{G-jZ!b41%3o;hJv~nA`Y8$xPBlT>98y8rCFs<=O
z%8%u-TEMFKn$Dx9DR}kp8p@9tH`2!U#lxD-)iS+L3~L31N4q&s-5t_ld5$O4;}CGN
z-r3-!-{<mj;z1u&IO(a2y{9iYFK`v-`knn<eHXiWoV{ny_IC~RI|sUY`g<>Pa=={a
zybKsld9G)m3u>KLy3TO&)4e_C2fI55x(ZY-xv}7dM+y}oyf3Q3>K2J0*j4VC5)^91
zFHJtq<3rXr^b~CNtb9XH;bzY&Rz?f&0^d+IYYNn|BwNX9?}`cHE{MQZu~eZR+QAZl
zQx@8QQy1!?8degj^<6IEDk{#PP-8`GC8oN`+xFf1(}L1btnDsnErcbtvATi;uSjZR
zRVBDmNv&)J#;~>1BLu;acL+8QDUn7}kh%D!Nw(r~etob!Av<da8d!5XSz|x~Ein(T
z^Hs6-5?bXnA%0mCxp8bAE9dFev*wr}pf90OULHek<qA@TcCov_-r?`>1i2l>R`c{4
z*d44r2d9ZVrl`5CWAp{Rg&IpFC^w5ncIOtV4R^s-Y0;<R$JoB%nUd$erDbrlF~xh`
z%_d*jw2s~1OX_N@L$)Zp;|;Pq{;aY$v2|NCliy{$<!#Y8zxsRLAg_Sk!_TmO3*DT?
zB|nPB_r5^};cI31aaMgFYhi@!J|z*_$L?nL^7?9G_whD~_kA-!`4-!h!}8i|DUn?D
zvOVDzTl0$j7rn!l)nGLR`)8ZW+sLQVf_0OnzWYz*o3r2|_m($vzf;P88y~Uh9a`B|
zY&#|1LB@NB{Q%FM00-CuTYBXDN84+6;#R7~J$SHWRm%B~gRjhR|BvWD4wZ1%l(C5|
za)S;)gETq48|>u}oVs}r7Ha=NbOf)^>3FSA*rIvfst=cNE~h^Md$_DmXydi`m+}d(
zli|nr3GI2G&{5(Oj<D@{pU_d_6ONW>@B6O*5%%cj`X4Ky^L_XD78@(^Eyv2+eyMM{
zLpWqT3=TP-;|TCMu1ypS8A4Xkj4LqBiT%MF9wrapIN=}}JXwc~69m1SVwUkwFs>Qr
zB+ZGueizM2T#U;%;Q_3lla2!@*mi&u2ZDaa!-?mClE?8DC+r;@;K-|-@N{oKC+t7h
z!zoS==7ZpVPV;g!%t->Cn_iEPllX3UTy%g_F#e#6x#OfKXE=Ed=Vbhx?sVtrpL97d
zbY06+;&g!^Gf8`#{<)xY%oTLs;HVNvo@yy5&p=<&3$w(GG<n$VJSFXBJ5Q$w$WtkB
zzwOM^U?3_a80<zF9HBEZT;TYH!C?v~o}HwfFeCiQNh`xuJeboKr|i7p@{V&7EJwh@
z$#QeUwY(-KK_{S|AS}skPQc7?DrUwxKIip1bIS=WH`XEk<UmqpI!6>&_)ZG{__*`7
zlkq^h0-X479yU4Sn!qsrE5-fX{s1S$g)}hfbKb&3{Q05&TsHwT%}Fp}=QO9xGvmcm
z=72fwVxB3c4KxCr;C3s#`#EKvhZCshrt7%{#vsKL_tSI^ghvG40xjD9gy)ZgE%Sb6
zIxy>Uds=R|+|#b$4Zm-nYr^9Twgeb=OVBej+XAhY{AvWj)C1#wW~O=ejuYTcFt?!J
z2O0sRYi~c&+O{7soI2lq+QaxfUZxks#OojUDcD1p_<bdz*51Dqy%e`+RMp|Gr#k(j
zdO;m`WpuXixu;s{ekdA>_hq!T;h$v9wnXQGKivC`(wL?6v1^GMWNJZF%ku7&6CJpS
zsEZLv)?kiX)4L8K>mg(~l#-=S51_*X$S@F*WewJ-?3vNL*uBslKcBRs>H`^LTSWfU
zU|Q^0=!hRp%2Cz+<xW&}C}U_(S&`us4B{EpB2z1(T9*%}{HW~`qAqPRYDd;~1idTL
zX9m%cL1Y+=$kwH*$ozZn#&<uF?##+G>vB!Z60QB{z=I=8M-qKWX{M?b$y>vxvIbLJ
zw(xfN;y22=tWF;rMY_7EcwMLehs%pY3q$eI<RseBkue=cy2BB1mV%ifYG?TTe=5yS
z^~OcVf+OA;pHJGC*o=N}M4HuG<Mkht@kXTInQ$Wg!H9H2LYS-LV;@tAGYQMmbg~!K
z97CpKsfiW(*PSa9=y*@M&xMY=kjWKMJf#eamIX_^GP(Ejo2mNcdDL`br4coqOZN?|
zQiE&MRYYA~y>@-=nj2knXDB)%SvOUcp+3J7{B_^TJUY>vzU)FLTxri7IzER?b3crS
z-tr+CKNy!TG$+n4+aLDA%$Da<!7uw#^Qfa6>ANG+ryAY;iReVk9q(S4Nj81nml7=x
zp{BQ2q^PO;tH7$Je@$}*X|AjeU0WM+p&?gBGZqnIB{nWJ#_JN&rG3e%Us0(uDGO@u
zT<J#57t;M#R`o+``eCFWUcLU#+I0`Q?#bxKBhs(I{46!G8<FmH$`Y?zs7^?d7G%Q)
z0%ifAMnu^YXOsO8!6X6nOs2Rmi^^gZ@lzk(Ow`BcmoB86j-l#fh<bS?+~~L)QEp7a
z`^o+!o$Nq0ZOap==I#FylJXO;rSq!J=h5+bM9r6>_TQM=?<E8%?OOC&>}I?%quv=2
zWGO@J%!l?^_d-?tE}|ST8FNLvb73N)%$n_q`cKG2BQiH7oyh!FM7gdr$Mqj}#)I+h
zrK-fccpK>2Q~K1IFYT%BFRIerL+Hp5(hWt#1-mjOMn1PM4=gvLT}M+_(5};8wXIUU
zYt&^#U0&@UT<d=a^}my$MkA7^;1jM!ug1pW#t(1CEeq3l-zO=|{OodPM%^9}e1|UU
z=Bk{03%;ac+4V?^%!gCQ^0s-b7nyq_%A(<1K<36$8@Pa)d(%V1tD5U;no*<~U3I$F
zoRi2onbAy@nvN1x?pbd7Ro{vzHG~dyeWgSP`qS4(SM|;{{TR}Zt-3vH?iu8s$>@DA
z*$!-e;lkngSfXReiwsTRYV^j~{KDRZKH+{?f%J}u^ci@j!_encJos@Rwj0>%y~&%X
zx)oercgAogB76Ee;~HBretC1n^2K!e;wU;kim1^nWlg9)>01^hhmh@1N`h?1u{E3|
zUw}_0IPx}g9DjxQxY6X#R5*eHo*<l>?m1@;1oau$?R<k%PWpl##_Mt2^3a@g(l_gc
zBZQN?{l2NW30Kg=Nf=LXj`6umZ!0XohQFnI2C?@&(>?P&%Ob&wXkv~G$ys?o&k|Eu
zq%F?~^!~u~f#m~pNa5Sfio=5Q#NU$J^ac7MCGN?JKd`W(a`b4Dzw;E}TdxmHELpD4
z2)>0<h19H|9Jc%zoSy`8vZ*2WfwL~8VKuB`y0QR|T0+`jJ_~}JNEqDAL8i*&nuR=*
zak0X3QbbMTd~TKJDJ*+4ROA4&-TD-6hNje8F>t4t2Ze;J7Wiwo?=eMfkGl($Lt390
z)5z6X6|2Sfgn6mS*YYMo|F4rxz)BebOZbdI9BJ}Tx!(cU;ti>el?LkhRe=>|YFQmE
zV&P7^aKATI_-&#<4!$hhzm@hWXpJNQD#okJ2xzfS3oS{$CGp9iCC#^_K9ZJ&C{_af
z<UFR(PXQQtNFOmp%n{4DkXF7g3mI5BQv;TZcgvQiuqLn52~Z?L#^C1dIBURFRtI;@
zpiS1u3Zs^&88o1ZT4*W0r-q$JvAU_MEzF=<yeS8&<Tiaa@5r~oZ{Cb=gI5*w$;&}}
z2RX|3DauhEUzDRfep8Nd1517XUCPQ?2`gjuwE82-&q%NhT|eQ_<g!f$XSobE<mTr#
zD4(CiMHm+ZB%;spCVh^RBX|CX38)eTHfaOAFL0RubK#qQ)`$whP<hu@a2!!GDi{}n
z7=j)?;erfTk_*^5k(-{p<q&bAOI-t<oS4tPm|Eb&)Ibry0@=dhFw+ASPWG19H8V!L
zj^C|u&CYu7K<<gt(dM_jemA5c$DxwL{|t}CcJzlZ@sasK6$A-ak^{?*N6w7(?bO`L
zII6hB{1xDzV<+g4ygom4XdsQg;hObuib*(|Ajk8;86$?o8uD7nfX5f`GmH@kabh@)
zAn8`X@e`b!nDfs;eg=mXCz^x=hEqTi6TIW}PENyUw;wVWP6z||v;<OZK4W%NFnvIY
zKM9%3xYm!00bC5?;tDQ?aB&q1PCglcqzw*0$jb@|vnmK`@#arR#*X_o<HCjq=<)|E
z<9GTz9vV(f3FLFLbHSVruyf`_6Og=fn&Oe`oDDLJ2h%7nO$9W|rhF$)p3E(ms&tW<
zzk&XL4R7FG*y?`_6B}lNs!G(Sbq(QjII49teP(%NL9&L3IC3j?YiWL6YfWo+rDeOI
z%<gu4CVeDDvRx5XY&<@ZrK%u8)K#wOY)EHIP>{SNTu9d#5wF|pe`$SaMWUMUxyZX&
zrRM&T=#jYafqY5+L}^cp>}jPvOW6|p5mg^PpH-UTmM2PET4YNrZR?gDX_4`%l!`U~
zV%IPCKHR%1ZOLkPtZD0zwk|17+<u~MNy}Q&+Lo-fan0I<tWBRD`s~=FV;O75n)MX2
zp2}FyL^N4hMZ9ONx*1hBXR2G*st=*+Lz(IhB!hny>lle-O=($0R%uLE?0%x$ofhp*
zD|fFe)c2dC%^5{y_;j|U{*B%m?fYnMt+oZ#wk(sG+5_RUUn}*oyNT{6mOYT;MFO$&
z3m4MbS|qcr$r?a~iJM77a_Z4^+HnLm9$l3kTQ}Auc0MuIN5`_onyEI?_Qcc>btg}6
zhzYUkTM1#Tjk=OeDZ!JbqYwL5$Z+>>m6yV2zG*)Z8(th;7|ob=twAzsYF#xQSQ!ZS
zJQGo|dL*)d5HT{=78gR=IEovRxFT^bc`Idj6#Ci*!Tf!7R2_4z$|{mK0iA1QKm*&<
zzpko}kbK@k{k<}2&&uSv#!r>ys~aXtEWrj<@zlO2+4E0b|9tU_iy8a5tiCF1ti`3y
z^1_b$)DtRwIJfuRV2qm&c6!(sy!Zo@i^L=m0w0D0z7QD_goGgxEeMHAt_#72w?6!_
zCWJ6j_^Ie|J`4y+-Y`bMifJ)E{P<B=0(e5wA2do<3_jopkg~GPi%tk?%LR7erzO~@
z)6x;(98&P}l!eF=?pQBdo(Y1Me@yc7=Cu$~(u$DkJ7`G37W9)32j8e4)eq87`BAUv
zhgGsFTKTE!aX#q9!T&aTQuBKHKW`B*Tg~Hw?zf+<_W#Xnb>CsO6rL?hKzyR_aftZv
zh<OJ<j1w0lxVR1l#42;N%RzDy+H-5t?cqCe%Ah9@bh_b2*ty>!WJX^ehcEAeB;F^_
zX<U4T@q8!DVE{(Fe6*L+I{-KS{2^b$qYYsA^e^pq&>?1UUdD;xR+RSfCoOXW10+E{
zIB}>sDdP#ud4qx6DUM^S+)+M<Yc^bL2|I3M*ezUa3K+nF<4Z?=?wqH16})uVN1*3F
z!W;M>2qeSAx<(i7-cS(@ZAi2;+!bk$wZ}WwDMR@DGnx9nGOCPq#oH6@$&OU}s_ay_
z^O-_>e@}D|ob*%4&L#iy_^RUV@ab)!YHQpc?@!ca)D7XY>pSWmj4X|WyCav7s1jK2
zYC$4<_+qRf-ngz(hr6Cp=EdrT>L)d=Df23IGJJlWGUB2{mWzpoWMisfRn}RQWGd0L
zOg?M@sG_qd$rflqlI5naD$_2{s(QSPKz~*pEE`wV?SE;e$>6H`;44gJgvt=^;iGH_
zu<;J)={bA$tb^ihl^Fv7r_E&n&0hH7Y7TDuIa#5`;Qw6*_Iqb`(l^22bCJPrixW;w
z2KnoqK+to0mf>S(W*Vazj24ag{odRLz$OU4dGKcMobY?;M+7fSA(fc%({o<Wab^Mf
z;cO>x8OjYINs_-IRR2b(|DCA*4`Sy!DZN+uUgd^hkR(r%8wz}HIT9V&Q0CeyqSpSv
zyX4(a=h_-Vr@zle*$r*3ts~%?7tC#g%C+?cydl>%=IQ;;#J67v34yA>>$ZSs-Jf;r
z%i8L*6+5y<Yt~%#t>Fww>a$YSJ@!3zLx>x2!+*azTD>904Y+fMt%I9Vz9}P2mGQdx
z+yi!rO;_$g#=RSI9-$y8YuxmpdZ`-e8a9+XOod^F1@(rSZ)ym=c|*%rb%aL0LGe|X
tfpLSEV#7#Cl=nv78+l>Em>0tWf>i%bHb9bwZ)XLB)|S!O-&68B|6e?iVRZli

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_711258.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_711258.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0da6b2eaaeb0f25c371bd6d97e7bca184058f1bd
GIT binary patch
literal 7884
zcmds5YfKzjcCPB`cXjm>8jLXyKY;dwHjNE4V~^L^U;_rcUKr1e*V^8Os)mN9o2f25
z;M|I8Ruh??jRHg)(Ic(2?P#RI_DD;lC}EX9D8G>NhcYDFs!SwC>-^wfXULD$DvEM$
zRd>^7n!z(lA|==6_BrRCd+xcfbH2L&z%W(<%HIi3$BdN(@jJ}qi#tc`J|ziaiC_tq
zj1u>>U-BNQ^14ato}MH)a$L2O@2dT>I!-@sdsT)xmO4PLKR|9cKyExhZaP42K0t0M
zEe|_c>&N<Mxe44eSqKZkR<N}C&-P1-WjJEoSz><n1LTea<WA1Qx(;Y_b5_;^e`TB%
z{3-v~bdN6Vg!g0Oo=rz^wt|n$Ea|J<!7dFbwxQcY9eu%}+qb#~1{HI6S4U^Cv!`FN
z_IJD&9PGN&*EOIpJ%ho!9Y5;nxYpMd>{IBTfuXJ+^>uaJ?dnu4*KZH>zH_r<s7o<j
z>$`pZR<J)$+#0DWnzjXK3jTKgMvo7Q0LMiu<GMVx_sf#ca_wT(A)2~^=Fvkmse)!T
zsz#L$4MedQ;MM-ZlBn`o&bx=uC>|>sp|t*yyuMh2%K59PiX|tS2!hwKWUP25#{FXv
z1k$4_JPNCO2-l?GYi-e(-_om~Ux(^YEw&)m$4saSmEn1cwWv(2N5@e81k6V~j%tvH
zr5*yU@+VL&I;PI>Bsz)Qs_YaZfwtn_xCMI9d0K2hI%u=yd1zzuwAhHeydBkmbv$lU
zo`PB774*fds0K^(<7-kxfIV~G20DsN1-c1Y^0avRTl9QIdS?z<v(xAlTo2+;bSx3p
z9l^6Zfq5*^_=j-%zR(x;^6Vk@&U{CE=MJ&g@Ez?nA7ZcZJKFQ33SN)S(S&$DrbFk%
z^XM#U#=C&dBfq*E_<Xg1ROQe)tySI20HR<oo%ub3y>#Shv9-ugGc5bQf?81%a^<yA
z%WHa#qY4zV_%@fe?kln$_^#Gx37=tr$KhZH$EF=j`A9`S8A?p}42n*OD%L4JKFWtC
zgArCShWJoylvDK4c!*UD2_epNz6%QZo<d!}J*ZHFJp&4L`<)@hdi|YTpdD09TErbx
zn1sMbSS~m-91=#x6kDDh<G`3D&rR-;69t`-cp^CY3b)smh{TH8FgH;cD*ozF@mGe5
z?+q27;PHy{H~{i+CI}vfCEkQ9yzD%V^gPb=ie)Oo1~s#0OsXagm;!V0a5%vU*w+F%
zp_qn)2_eJ_ieWg&#b6Z^+y_xErWo-mgDS25P6Wq7(Xe6<Pe-G{Jv+3@=QPcD9i{|6
zp_uVJRf?V|Xv3NmF#*Lmqp6r?0ve&4X;E}D0fhoP3I!%WB@pD}f})R43oU9LP|QH9
z`iToL;kxfp{_u|f!#F>Ym<o+>{;|-=L`WEm$IgXDxtQQj@FRYKo1F3k=ZCRF{A^Hw
zbCn3k`N`&~*&xV45E0_B;7A<KOM6R8;Nlz5qA)r23676(QN9D*!&{Vi4(C=P{{1b&
z<ym4DnN(=gSts>;>2S@9NilV2(@`sRe`&MN_b2;P^_#Y8scYL=o-!>uK0E%o@3C*W
zWBJ3)<L$Du9XdJPOO{1Tsy_AZrt_54^OdPAQ&E@h`13zrtp6hL>-Hz@D{rk?<kp_`
z4!N~|^UT1U33o9qno`#E`*LOTrqe%X$hf?zipAQbaoc?~H7>iG=1dva(K+Kb<4t*G
zrdGO<frgpomQO|5eNMWyU0$7<mCKu?fsDH@eOY$<LFRBT{3IQf%LB3_u=4&|wS2K(
zcJxc#nS&a>GPyI}+I0Qm<Q$EiZdnx5AIKF=N!zx!RugrvkdOQ2iol$0o3Ss{q<ymM
zjLe)_9$T%Jo4aJDYn|S>8<e|)G7|(R?T&@!^qaE#tZYBKJhOUM_TP~0H`c2+-V4b+
zA=w_1Zoah8^A*X81#fENY5nrha-&=mSo!f<+24P#Rv};Pk!yOkEWOgTFLP=YsXuz!
zvdk{G%eAd56Kf}*lWUD~Td!Q(yJfj0U3+P@%{L|+7n;&XpWa!~FTX3-UtFcvI-l3C
z-IU+xlk5Aoto_pUFJDjXE0Z(hE?e-xKDa!v`ZTjZCEr*GrxJ@%nLaLcW^$6@RO{lH
zOxH-A+Nww7a=+~GuQaXRmjgYrqX*89-uS5dqwcx)Qgk{ZSNdhfzf!h(>p8i8VcjHO
z{^7>pPd0)hFSzhVFf0#_%9ls~Q9riV$(Ej#E6>Z!`IVEaKYs37?_95t-@dak6x{eJ
z`yxEL@zYUxXiR>4?4R_JT{zOj4IibLBC)9`Tp@*y!~~9ya-jzttLR7Kv2lf*;okx^
z{t{G*U5hCBK%iJhrh}R&!C%K(ow(|PY6J&2TyVJa=6-ko6SzmNNA5?SB?1xSxP4!_
z50UW`*C(D&+@cwo0RUFPwbS(yKO+%YN+0P;Nk?=uIu$z7Ne@`jVXzifB?$wzMG~q-
zq7-}<aBNn~cnQc@)LJ4<7PaCSzORI-2l=@ecnT4sB~~uv*NG_g9f$Uytc9gSE3zit
zIK{JiT*C@F_6-4S{!2yGGhjH%2apxk0D2@ncs=>kDi2?u-`k>PpGERdPYbTRFM=me
zjhE%Az2E$P<Uu!UEI>ti&Nb(r^MonZ^s!mAC0$7m_F80;9?_2UEHO=r4rCUcLPg#l
zvZ)Z10Klz77Nm#$CdRR7Ut!Jp@eXJ&d<q@VUibhypxsiiPaZOU>GnPQx<mSxZr|%~
zIi!E-_PzO+Za>U^Vg6w^VvrNrkpmf#30V=%T7PN&Gq`ieGD!I7fd~ONjAvkjc>Hv+
zgYR2}kbt@h)JX2z6-X`V;={Ci8LGdamWU*o)D_`i3?uiIBwQ?(#3vwstiluws~b?E
zl~1P_wUiIxjg36;=@or{*H8yQCKW3hV;E*7_;b)dfgP)pB#FNYgkruN4NVTSp(_t-
zLQ_-GSqx_YQZ!$V#z#WY#1$a4_5|*G6sq4#M5;V({KEKa`U$;qW3_Yb$Zu|MHucGs
z{roj(*YGe7kUsP4!a^SdaCj^<#VH0>n8iPUjREAE!T^<pmNvyaoToHVYe2CA2oh$4
z(Z~d+*tjS+3Fs)8h&<#JYBCbz`@sRl5#we6jKx3Xc!=)7fQoqlL8?gFSH|DK{uUAe
ze-pFaxOz40D<-^tY-CcQ0NfR!S^X$La&?l5buu)Q%Nhz3NdzB+_(*6t$_1kuEdC)j
zdk0tQF5nRI4QP1v>Q!x5Y{h%Qv!MGv{3X7IQ}hRk$a;x}#?Rk<{I0A&E_KbdEwrWD
zGqihw{p1H5`l`7fWN7>Ro5?p*)UPa`TDIs*>G1OCs_RK~<J6@W^ra2`C0VUE=t~*e
zHs79X|Hbr@xF~+ceI9!p`)lrRC;w`4!`ms-og4bj4Z8CylO2#ul6q<P{MKG0+iOxE
zY})JRsBODLx|y-M7H-Jas?;6XT9bBtUh}wSv%W>Pwybo$u)euEx=#LPV*T!mD}x!c
zW1%H!n=@r80(?EZ&*qiEmv+}L8h-0;0tC2RvC{FRdehyus@t?*l5YMh-4AHPQ<-X8
zydw2wToqDprmQB-Zj_yt`ZEr%)csQLS~w}|D>7zF#!Tn`yEA4xNaoE+^MdQ=AU>3&
z=dDTWLd(w?F!A3<W=|b87_$w8_jty2B;z@j@t(+()n?q@jI#p%?_R{sZxJ?!)T`dA
z5!nAi!8saVu-)H7y#!%Kgy4WNhDeG!krMT+PBeUbKv6Rb1=)v!M-9kExQNC>`sk2>
zHDJ`C_QD?EUZ(HW%e;pX)QD<+mbYg?mQol60-zBGOxAQCG)1dAPqRoCja~w~j1sKn
zFG<zkTv!z$a*MXtSRpGsTWITpLnf3%*T?p~)~9r@Z>$fZk&UIluszG+H}T+gV$^l|
zKYt=%w)SWFwLf^aj{i5ab-u=IU3j*LfaLEU@aa{+u_J+q@5R+EsCMe00w6HWhTt*E
z$Z`)NBb=(J&;pkbf+L{>7i{rSJMchO)Q=y8eqa*clO3FMcGjWdCvX*pYRE@v$#ED<
zI-x4I7l5%W_}glFG$g<`*WO62K2pu6#j*=N1AiA=Fu>CV8&gvpKZFHFfr};LJRkxS
z&n2d#LV{OQC(fE${tRL@Ywj%rlJdSRt{5RlPfZJoO#mnp&E@1h&l3#ve<k&5IoG9n
z{7T}T0nN|gFYzC+P!h3icS<+2Hlm@mDDlFlvDEw0%*@kCdZ8=TmTp^aUv1kmUz0js
zS{?Iel4sz9d3?F!)A&kw%lfu-{QxO*1RhNW(<e5W2I<E3u@k?#|LJ|{=3Kw5uYw^@
z`DJ~*)VI)(YTULlQrAnDcd2@@`bEw8RqvMTs?@vfD#KNgFMa8T<;K;9Epx}7C*$eU
z@Pgq7skLLzlYP>>Co8Adt2RR1785Sv(EsQftdwmrZU5VYE(=@Cg>MXMCTt#QKuy6u
zoq9C}e0KHd<`AZayPKo%vO5hgbc#7o@%SrNp~fSEdM^?JH#5cO0O*i<#uW-4CKUZ}
zJRa3906uRDtsVQ|Xgtb3Av8#R6*rhKPsZ8lD0hYb8L;?+B5?`oEJc#!?+DvJ6U@I5
z)mbB<Ge4^Os4A-)AjxqOAcm)W>Fna!Y@^0E5%8`TO-8dmjX#ZF{cMZ2>=}(eOO$z+
zE-zlrp40ed!d-@sTGp@e=Lx5K9wkw>MdJg6-8p|hc|Y5#@fULZ*B4cOmm+kwyf5%D
zakM&9dm>9;AstyeQC^j)JO+<_UweShm~4;GM<`1Hy=}42S0}5p2CQc!;2vSlggG-&
zUYWIE%1Xc`z@F!<+1*(OmOBZzH|xTbo1h)L*!J##jv$$@%|j&V`L`(@;iv-y`w^`!
G?tcLpqWDVy

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_816058.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_816058.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fabd41ad1ff4a0f9d47049bf76be5886dbc13786
GIT binary patch
literal 7990
zcmdrxTWlNGl{1_nIh^5;97&c%Sr6*r2W`iaY(-Dkwqjec6-kaGdm9@<SxPgqo}@Y)
zC6;k#I}QRwL>CYREMWS}N>QL{oezGxf5Cobu|JwfX^2@Zz@YxoA6@sOC>H3RJA4eK
zP?a~pZn1mCxpVJ1_dM>oXYM)o>fd;tC7=v>e>>fAj3EAiJB3o2Z@m5~Nf1v6kr2sw
z;(qQ;-Y3nzZGpN^lY~UhntTeRxwmMO=vnt(819MG0dV>NxV=1liV+>3($Dh(?mJzC
z^(Xp7r$o&9%1CDpfV&QWvj@Pr1K@7S1v6(w9v(_!rz%9xr}q0?(SF`fiTiFFA-Rj1
z^UGvV*u|=j8r)1ok>q(P{E;LYuE}U*cIiP_kqqZM!?&)!7aA!v-kYp1nVTKj6g;m#
zap1L5V8wD})>dd)Z;^bS$E)>+jI<R;HXJgNDvoSK^yA)=(X=JG&_Xn-e*~Q(P2kPO
zi?%&fO{fV49)ahnH4&RgssUtwTyqE~`(DWr66l&y4QkHuL5-+pZk!-wa+yF!Md}gQ
zPi-mT3HIGzL=x3K&)ZpTMXji14pSWmUd>ov^#nRG>)KC65K0kL?&~Sq<|OjV_2?vW
zKY~?8t)LTr^SCy-p8}k34^AlJf{|*AvOEnc8C^2Za;rw7Q&=K8F4AAvpJRW6qMkm4
z%7%hvsLr5z<S?~vK+b}`U@@l9R?ot`-$!SQGj<g*Z&}csM<5G#?htJV^i~;d+76{U
zSB9!RauaJ(BHh#swU}f7PCB7lnL_Oxp|+zoblS9VJ33?94u2^f05yB4J%`1*s^?)f
zD$KDBsIp*ZSdFSeTfG3QF<fG$GW$BB&;@hm1s^?9phg|&_!o|X$B?D_(;M)~ud&7L
z{9bO6>u;(TvUvPJjq+=2@!6*f^2coGXoNQR4){XVPE@VFjXFy-JY)wk*P{z{p|{Ol
zq#NumfR}ZZcv%m+0R5s4YH!4M*oYGO<-TkJ^_VNyz30pBE1@dCPQ4~oAL=e$-DM)^
z9F_5gxQpY=E^a-5$1FjcK`(@3bA~;tOiOZ*lyT+|bQ(5g-e4Ey=mR;t5SkGUdOjK!
z4M$iGM;=IkjT&|cjTg=v_LvftrC`57erQlvZ;ct$*v(Ocx^?%C!Ct)^8oPdb`1<IW
z;fYB<o0lS?=+sn9QeuWHrpPm*6nZ#eHK(oSg4LWexcu13Xl$aiGhNzQDD7A@v6+ZP
z109P7Iu;Fd=87VtmQGPir>Lb<bk1NG!Vg2aIT@@RRl@ReNSs+P966Ybw__Qvtqg8Q
z$k@va*W!#Ang}bC(*}c^(-N4}j#~?cZ*nQmE*6RbH^uOjK%@xRK4&_^Ye@@Dhv%mZ
zdNMj6GuO>va$|rWwHS>VELbdWaf5{^7TOfR4GI7T^RNJOJPZM!b|d%hFl-Oo;ps5w
z=#tWI)*S{5?ZS93mKu_!n3C6*w*XjONS5+=!-YM}9BS|nb0meiV1_1-JOHHQZmb{d
z75L%hFL&EMj>>bf#qgxmHXWXv3oFyn$XnqDQbcKs$&+o0w6NF)y|%nD74YlWR8(F#
zx40YvcnG{xiAKOA;G;bqUF~o80LI|+!{;P9BF)P~prsR@*uTJXYs8<fkc3eAgkR&6
z;VoZ4ySd{PR@JzgyuIaZ)Nbs!J*y+}kz~`ByH2~FaSEHx`kiC-&$^#>ulJ=~dQ0!t
zvA#{FX2*Z*+0my**K0Rs^rr3?O?p%RmjB|4CoME?HlNpp^KnP!SRD+^biT9MIr>i@
zto}Iu<HS$aXY?a&+kE@xox9p#ny*Yu#Y50=x)Y91ex7DLnd-p$z*<zhwZrkNz46|}
z?WA*y3uxEUoHx;?b4}W{jJGQBQT!jZ8)>#;^-TQCKTkZFUYp)x8?~$7IV;jfYLfl>
zkrNxODd9J#QgeE6KtD3D!j^}}*-T-4Rf^MtK-ph1wgmQ)b+4X`pG>qQS-qlpqbfDF
z&Gu?ncglma4#HKDxT!Pspk(5n&NjTFNLOQq^(KNkd+e3n=Bmq5gq?roCYZ{!;7{IJ
zA9(uVhF`D4wp(#nAoA(>#y!2ROBcFU96P+%wBzk$_1gV)G1aoocdgjULF2XzaJ{zP
ztJj^?g|h{YxAgi8sb#(HiY{FF@3333edqM0J-(H(6<dbm6I8q>F_FBmHm!3Fcyaba
z-qZkI(*QdRyUN6wL}lWUE;Oy**%<iz!<1id?bC(67uUX2zF~&T4k14uPu<g7FX_Ui
zFX^v3f6u)CaxbTA8@+mKr!I7+#4oG9VFtg)<(7WD|HZQ2dP5g(eAT*n_ue<m{Z|em
z*ts_QqV~)1?;5mQ>8b{8B<*YbRr9Zdp9ePvHa^~J?$&+X+Re1jpB&MBLG31Xyqdsz
z@5Zv;(xcb(tnlgD*7fC7uYU5PUVAa_&HN4QiuYx4S?jUu-g_~*&A+1!?$D0UZaluR
zGM2ck^UdpnDgW>3{@3s+69)NE?t!=5i>n$8VXd854q^ZUTj}CF>@Aa}=ZHo?nWw%_
zp?*RjVio}V%Q(aY)upm3r@9eYZiGnsfk@@cW09>K&D<&2glt2^CnVw_Kf@;y_gpQ&
zoI`NFFPv-vYuC;qTB8uB+9M|sEz%-UOTZg$6KV;3=9<Mb*jEblvpAIPD+Qct7ira_
z6sbWEd+`+JMJ~i5Zi-TU$Qi3v@SbUwS*Fmk-pD$K3K1J3R6*eiSmeXDK?EX^4GC~=
zrNGL30c*WQN8!A70G>VsUp#3aK<_NllZVJJkGJHP$6NBt<1P8NL*$poTk^}}E&1i~
zmVDt5`Q`DJ{PK89etEnl-;Q|1AqQfR2YH|8Z(&FR31dW%8QuLW6d8Y|kAfeVSy}+H
zw7|krObJX#fr~#1;1ntloeE6Ph@un;#AY5zGWN>d093iO89Ozk#P-;9cu_Ja$ovd?
z1~Lf44yi9Bb1Wni%5rFa2GW8d7z;_DncM~|<YCNY?{*@OU>M#<a!KMSZsAPPu;+3^
z8s~-b84RI7S@|>`U}cf?14x_=3Noiy1z^6PB*`~1sXM&5IKLdqB`oq!0Hneb`z@RS
zG$LC~1e%_G{Pbg;hE!ywGf|y{P+9fFzvfS#U#r)K(wqn92ubRh>#6H&u4$8Q+T@zj
z+>s<1zmy#NnhR{wBb&`5TTpWWGnerLc9W}5`y1m!8Q7w4uYZs{x6zlHOvxLU_1eB~
z{g-wB<t_ifxBfxhKe*+;u`-nLc(r$TJVN4ha$?KVq`jMQ3yIETHSpA~eaBVqcq+g3
zH0Yj&<j(*dr(paF^^z76tvY=)&A8GGSNK(=nQDNT!A|%EfDdhQt8AQ2bo_z`7JsiM
zXbnG48Zs3|NHbpe{i(mf?#Nyu++J-+eh=1c5}sngu8IBe^`D`BLd?LbiliA-NY$oN
zDlOVnd&xl&pZ4|@bMvHN)2F_mpXax9)o}=o4cSFIzJ4>Qum(_6=MSP{lwu%(57&v9
z!c~OoLax~|2XaJ+j*B2qbdG~$2%dPJj7pYBFB3=}5Tfgsq^WP-3MwbEs{0Kr#6n=n
z*$01^P!6?^`v=*lJk|H?0~?%M<i2n}&)ep2*oimo^nczXV78v;1=}C&72f|hv-Q2f
zYy~`9L_lDx7!A^9RNK`6w2KY3dj%@_HdJsSuq1|qq~Q>yk7gz%bD+T~_^3V^j!B`8
zAhk<C9FW79WCB+oKm{!Ecd{$u>MIPL!qrcqx)Y@Kg{@M4=i%B2t56EN0P>wP5i?6J
zg?9$+@;~6Qb~tg15i>B!V;JC2q)03(2YJH@R{%@%N=&{7@LV8tL~u}y8BY8v2F1P6
z6>dnDl*J{*a4Qh$=kwPomfkU(DDDZDxkxFPme~_7@&5w;6`t6Cn&C3z@oDd7-NcCt
zI^7KMvMbS*?9K?4+R#geU*+Ol;(D@cy=$ZUMb|d-jyCX;_2T1mVk$YiG4M2+n%ZW6
zq+LA#%KMW|$+7j8E&hZyn5l1hHvV*6dv|3-r)xpv@iv`q(uNZ!k|#56Uc3HMsD4tn
zR`+#7`-|#r;fgkt5vp)iqRa65iH(ylPHZy+mL{|7r&HwTZ2)BlEKT-73!0=(e^t8~
zmbUq+G79~V+8|X0r|$o4p&QCJ-}ybE4B@WSM$G^mbc~LU4h{|mJvrBP<SvH{Z|;3=
z9_~b!;BLua3N0Dm&l=S1jAH)NFs4Wk7v+3zc*k^egM#Z*gPw>+=X2ixb~%H~d4A|Y
zbYA=oVG7UrD06WkDlW}Sm*k(rIB-fL_E)H~6iJeQAl&~>@c%*7!Oeh;`K<PFZPq4}
z<i%_!QBj4RCHuD7?IL^?t0<1L-DbCk@c358<Kx+0v)h;N{;?l-UsHt5oo54SYU`<V
zV@tZaHeFMnK2n>mKK82eGU<i8rO(h~l%=4Zad}qj;&oX&v_TK}0C3NVdkk@;_Q~+t
zaMp!;ECC+uUUO$T+;bB`RhGvs4^dH__2QO~@K$C8+^QgaRj;w6*YDd1lK&%fha@Xs
QE!qfg0Mfz7oN1u{0tW>INB{r;

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_824557.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_824557.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b65f944324202f789a09b31cfabcbd4573ed8cb2
GIT binary patch
literal 11368
zcmdrxYfxKPdiU!6ehZAjARYz_Y%mXlo!E{s#u#jaF<?6miB{$c5Dy7o2|vhHBJX6!
zk~cGm?RG4(+p(N>CUWf=D>FM2C4b8L&${i8>Hw{kTX)KKGt*(FKk(XZcXryQ-?@4k
zL`Zhsowk?Z+;hIiIp6utcRqdJcmG<clo9YeoBH$7_sR(3S9p+m)XC2CM<hYqCMbd;
zCy0xQH+hld#=J@XMFELnyb0l?=%Q#+d{ImiHgZgpnkMt6_%^|qE;CN`D8VLh;U;j=
zCUEg4a7k|Xu!53)Ah@3t<DyJTWd0~UC9@G@c_|q)Z%V!iT(JpUX%pKv!42~YU}8#T
z6XoXRuxh|6xSl3A)v$`vejvQ4OrMbM1LC5JN7z*9y{WI0X2UApM7Np8N_wW;cBjKS
z!3qZ)&|$?#PxZ8&w47wOb@o~M+Ivs6cUyXnAMb1L@3Zu`clY(2Wu<^Q*LoH(th}?k
zza4t5=h~04(zc%Nu7Qr${`S-?r-!hxsYePOKKwu5FUMBo23txzW4u%^^QOoLy!%NC
zPr(+n{4Cn-ThI!!XbTw$C76NLJw=SswSys<?TmUxNDwn12vf*tQ+*G~5P*}X#(-0%
z`X0h@Hfv2mW)G<zBVe}U8PogO@$Kj-el{1gV+L-hM+8#tU^J=KH%PgIQDot=q+|-1
zZ5YFd#s>+4Ca)7INR~9Bl+2koMKas&Cr=2=<0)ngE)i4A2)R*-qmU`injzQzg)i?v
z!I#C8dsTgERgY<F+Qd1gIZBzl0MBItT@}M!Ab!B3h{O#`XpSkxPz+B(bt#>3vXKmr
zDOtx?#OZDwAExFwcntqLa`3bEluKtDC6JE8DQu9u2t#M!rclBMqWk!M!83;M+PcS`
z9*=RJK0V|*Y1=H@LavSb+)6I-E0L>w3%NF)v}g-`y&AbHwv?-gNn6(jYy88=xRc4J
z`AoT-@RTzZOc`g%JDGCM=CMzy1SmIRb|$c#O;>@>TYq~v-?G65RWIG1Y|pNE*~;(;
zX06;X?-qJ^AW2y^x%KQtOj;hM>i1a*Jfw*+CA={B7w}ThCVw3OiZ!<@>-4wqV#!|`
z^QJz@^o>5LdQ-k#-^f?9sV_6X%=ayP*=8KSt1nwOAM?M(mu)WBtMM6I`LgOwtaiPH
zNYcLl)yTD#FRR%^uJso9s^!YzzdXCaS8+bevnT5gs&e?7by`c_WO95L_@dp+9(<3v
zH?XF>jHh-}-?whIjIZH*=GNY+b`u@0pEs?;Y~OdCFiX2>9E_PsR$#qmcdg<Wc@;xO
z;2)l~Hz2GROj=#ztkCHmwb4m9W}$H+XO^%$_XI1OqMakOb<$#|SiywTO0gm<ZFP*;
z0PAGM!vJzOHn2jM+ezD4;Z>N)X0BuTJp=tLd4c7(_4Kj)zRqq|);5q#6#7`z%NYYJ
za@j6V*c`0LF>13?E>=c6-B$X#g|bhw(ge;zJ6TOzYukx-%gOdPlQXdzmz%azHj8uG
zZMkH14~??gEJ$+JY*2CmT^1Ey5-+4m!mcG}Qm4nsc`|_HEUDG6S(0<m;PnX_J9t`*
z8wqZ3j78&6iWN@TDGTffzY@|)a2GSP>dclcqt=OG*f*%a4Qju}^5{ucNKaaZT+kh7
z#q@ZBgg@kTv3!@^!Sb%{h5ve%=Y+Sjo+EKxwN9~8prvh7HmjTET>#vLdRBC8uLU!T
zuGL#GFCUcWsss5<-|hMBK;2a*J?@&a4%zBPtwZBh_o&mc$2wwjxa(Z>P@UU0IaLRv
zy5!c}U^lK|Cp}p^b=?AR3!I(X=>TEi1ot;I?c3J^7*?4iAGgsC+XUSPl3_i%x<Id9
z;)Q`ws%KC8PX{kAD@wiXPc^#R$~k4Iep$2A+xb+jo%Q%Vq0(h_h4(}}&lGB%b9#Gz
zDL2Fw%78T3jWpFrQ60VzRiix}NYUXV<0@^SGiKV0411AkZ)AV$a1UziL8=}<|0_e@
z?T)#QU{|;R6*Vjw8hz5ITK(<(x%}YvkR27&MM_aY<C3;1avf=p_(X{{dXT0DDQd!_
z(Gpa90x3?U*QiH^dZen4oQS<~1~r{Qsxv<Ridf;hdgJ|I<)YXWm#E@WRUqGA^3#Sp
z2j&lidc)$S!o5hk*L(C!d3ju;3%r9g<$mFcM)%{hx6jX=555z&qa7_v#{EdM-zR)3
zmCqLV3j+0lktJ!d_vllVX4dYv2gzVd$U1*;Nwv${@lWzRET`^AtpRtSW3DjxKGN1k
z@}q_?E=TiGeQWGkKdSFX+J2-MNJu{LQGJjKw#>Z~aw6ltsCYr}$hsg#`%fU_38d=u
z@v#cGB*L<c_($Rjbzu6V-jE=8e(t@n6y?`PMxxZC*60XoKK{4_HD5q^Z^o?D3qDUR
z`)8TLU-seI*^B;*KdfC75>mwr5dla1O6CE1&il_}U7Y=h3^oPDb8m&3k<lC;iBMm(
zMn+KW;RQIsGsw^zdvg%vQEik*4)SE?QOC*}kfs4C8sa*`k9vcG!1=kFkO=82!!41f
zFSL;sRP%b&iE2(GZFgK}d?6O7WdAN9<jSmFLPbgbOhzb-aeZE(!q*m8ssrWz3qfA6
zZ(f3wCLb>c1P&m*iCB3PGB!o7M%|BkqgPQ&N33fQwG1NTAX2^U<3E+iW+i?}Kp(gi
z;(c5nqCzcq<>6suYKrDB7#>|-$VUe{ANQaGZ=sUGzm>e5q{ru07prJSx@M$kjw@8(
zVvGMK7D#1l3PNuT>Vnq!yionTB21!uGt!yEtw^`WCw>Z7taGk2Xbt5r8O-5cWT^E?
z<4RSaEUiB^($z)EBK=>~N6vp*6FYJSHJm}ZGf3HsRk4AxDq8V~j8>tBqp|h@)G&Z_
z14wxeNH-d(bfMy}$b~AjzY7_=km_VkOWsJ7vE;ZeKWRF(p#w;_J5msBdZdlEp!&82
zC#oMn+H;9xR_8iq#S2-+n1BDN5_T9k8>Bxj4fThr=HCsULnVz-UP7kN<qKnI{~1(_
zt$A7b_7mmzkn(#^6{^`Tf7f$t-9BEHHLC)bKGFt{1@q^|L&s5Gb@*z;{Y7u&Dyn;9
zp&HelLdMgvfeV}5if5uM`_<|LLv!1}JEl5Vf201<03EFOm<(3Uy&LMCdp}%?@@vB9
zBE$DA(cy(FpF5XS-HG#9Z`gF=fIodV)_xwfoJYp<NOd9Gu7^Upk6T0TP{-ZE@D)_L
zFIpDue^ehm|9Q=08G7w3GWGqPr2jemq!285jot@ux)~2t$w<RFJnXW$Aqp9qwj@B%
zpR`^}4p<Rwb5GNbq3q&GAxyv(EyEB3+|=JR+%(=M7y(60lO8D}b?F#l3`o{LgHY1B
zrN3poW$?%xb&Sv}?t-FustEgiC@1FRf|WdS%)<zB;VG_2>`^d^MEZG4&j@cB88R2`
zAjE_orANi^a$$4x;E>qG>moot6@<x9pa*^xBOBiiaJ&Oy)(&KpC=C~9!Igd^E--TR
zk}NoxtIP}1;n;QE!^u$!>q$Y*9QdCQlq@&rPl!KBm+?6*=itsgXL?OJoJ|fcZp}@k
zd1*~@3<rzro|GOy>Tke$cplP?15EB=_--5@aZk>YT~bQAm*M9+W50fwOLCGY%Fnf{
ztQB&UYO=67602d}m6Wyczj0T5hm7I-jW|JKl$^~ZY)tGjy3=<p*JmOoT{3sTjq#{C
zTZCQHrHt5B!l)?)*lD_mJEl)6E9=D&FVm#ToFoC9oGdhtQaWH}N`)nZk;)-~kvch2
zJ4j08(fIT}gU>k3r!*f(JX%HsbXtxs#iau}tw-lJrWR+k_}d4ghC~vVlLc4<ego_P
z?gypDA05DZXc_fbeu^XWrqZ82U{>BHH2TzDHo+UVz#G$eEC=x|<j75vks~)gBS&t0
zMh?w)w|z#+h!_c@yPy2f1m~*mBg}c-Gp}_Hn=*dhWOtdStS*<0GT9xwO^_EmOc~E_
znw)mIO_yv*5-!1}m2e(3Hv5?!nG`NfdGL@anH#PWkb=(?_BbZ4n_SaVQ%>5QLYaW7
zVPEr1Ve$uvcBc6cA2KC?Gu4o@nXC@V1UXv*J!-vT!y=ko)=8U*a$lda?KX`#-KH5K
zM>w;$(=j#e=K8=~w>4w!stGo-dIUFKXoiws)}Tue*dgJo^ZXz*f6U+N%bcGNmx{#t
zzMphJe$vky=7ZXK-CRBl1qe|h1!M(7l>LfXzzR;c_qVb_E;*)6z)P1v<H8?4OkS^-
zJ_;RHa&W>rd5N+fo+-9YO-)>f(g3a&)E=C04p}E$hoO_ee}sAQFY|A_#830?6wVih
z&V~CU=6jZ<f<w{ig<-VqG<^*4t9XG`>_u1q^Xsp_Ui~lJ!2j1~1ynXhty56h;PeYI
zfz#o(k4!tKAttbcMj=ag3;`O-A5eV|_1hdSC(R1&4z4N!ujVFJ28poyx@E#X4unHa
z$bPx37Rnx6^}?J-x5LtzNQ6F)haI>%0SzmMX>9a_4bGcl#dgQk1f<-o6hs-D9<jQi
zYj;_$Sb+jQ%%;j23O8tFA{DbpIh9(bEcJ95p0^awD}u})41}v%u!0e&q;Tg#_hAYX
zZaD4ZPue+314oV=Nt}lw`xIygP~%#X>tEp5f9oaI@(68Vs3NAR^mcv;dAPayVg9{*
zB&qZXeOCfk=C7`(3u5Y>G09M@YG?^s_0IS%^F#4HF_P@`DFVa6k+`AwiJ<}+DngJS
zR6%~ADG0XCDSg7Ywh-dVqLMqE^PNag;O+Fy#O12l1O5X+{vGMObWvU!6O_i}rE!5O
zP<o@s+ZC4^gZYbcQ%ukrD{EbXR&I*Rb%CK<hhu{MvBLdJg8jb3ak(KVT9g;Z1czd#
zLrc)gi`PVue$Gn$(m>zsH|O45loYS=dBQW~inKA(_F3nrosrk0wuQD|bpE_^;q{of
z=eZDL<3I+CvRScT9B90KVD7-8qzE(i1LJ{c>0eZRUKK4^*!h_MH`2e9F1#BP_hH6<
zU@QVgjehn$|9ea7l92wB;=9F5rS(3&x9zD|8>s!WouBN!yL(w&7gz6iqAo}3@~|*;
zZBbnplhno38R!GyL-{@V&jvnw>(jSlRjo+f8k4lf)UEM?swV{vsGwn~pvkXVQSX36
zRb3f2FRB}3lE#?2@t3>mJ{)+W+<}xkg4SiFDbnjb9*31X7R7~kJD^tKa|OEQPR7(F
zNMd>-se~g9T@LHRWB0~m<^!newPnfcYZ5|{7t}4v3!m{JuU#<|hsqWW75+<+>IME{
zL)*Q^$NDufAyoV;WW3#^_t=;EV!t(99px=nzjn8Gf%JBKCC~;ckRTrx43L4wAU}99
zT#N^zpe)oGz7o~n^L%MC`$V%!zcOH5mTU`O1~fOiv?M7AHs3ike<-Y5D%>3&emHq=
zGJ15W_KhzKD|{rE2Wvl+hfCuUDL2slP!X`+9-SKv(tk7&YW?KI-4o%ne|jn|QU7>*
zu=_##!&CQ8Eol$LCECF2A!)efg;pvQtr-Y~&YSQgLty#o2RjrlDfkVvw+TDp0gs47
zeh&#D9N#0LcphO^RXXV>)BMokf&xAy68r~(`^k{dBie$8#|SAQ4jniyECD<o@$bYX
zai;@O_z4v==`U<Jtr^SlEepK92>(J*;z3y1Bjffdfq*srTQY|AvhEpyApT>LlQ*da
zkDQWu6yHKa5Hu$BgS|LBTk1#gJLxAk*9QGCa!9-64;1&4y7>k@DLFm;pSK9ut?GVC
z_nTXV`v1*tHQ!>lTD)6^fM`e8Z5D6=BHaxjdH^@4adQe9h<v6gD}1F9QMN1gAsa`?
z%H1}X+cIQz*(~*DK7H~fzEymoVM=^YRw>*(#(0hhuh0)1>DYm`0VI3A2Kc;#f1a~p
zjQ|^72Wv75>31+p2vvK^!Tqe$7coHO=3*SP623CnT+<V7S0Z4*u|gthu;U(%FxJO4
z6Bveb(2RgC96!GlT_l1EEvJH)A`1p6e+K`q{{UCwC00}#ZwFKtD;trZ%-im34m1Z_
zR<wF=*H;qdtlTdTv<I6*&Eb}4^RncqxAiNTdbY-20|CWYxOLtc8D5qh^0sXPRTczG
zgMFd$C1s`e_{xs*JA?Cs-VWbsB-jp1?yN(CQtzoiWw2^Rq4c(YrOmrtG*`4(yf>P+
ztUcoGTG1MClO@ZkP-VC(TDdG~%}6p9s*aF%>i{Zi%}BBinvx_^{djxKYFkzg=Md<B
zR0k2mva<OPy=d6ItZdq_D1;MwZ#NgSn<2RdW9aTae*Cyu!`Ui*1^}!&kyF%8z*ov?
z_!`AZQaxIW@ghi+?2Zu{Un3g3EtWrKcXQ#i%Wb<hMRUP9ZQ(Ewc_&OC8y_oA7`$b~
zIYHecI5AQw$)uB-p0FLJe*kp&m(H~h+BH5&lD{Gpe@`g?fhhV%q6|Vhp5*5C8{5}-
zZ;|8xxhBJ(4+i~%Yx2~%dH-jFpQgtOLZh2y{LGp%fmaYUdmiq-w>vXFMjj`Baq#B{
zQxH{h#$T&Bj^})Wr%0`Kj8E*XkDK?zO%-vCF|N?YRr+W8BP6MdixoGS8_XIX4_2hA
z*&=_@nh*~_WVkqZDCUL|!ni$H9-O|z%rmj=HOR1gP0Ar;gtj1Pyi+t^gfx|Fat@}z
vF#VizP00-ngh+mK@W$YCBOX3K%OgnTuO<B?sed-bBh;oPRp|{mr`G=lAsFVu

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_840463.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_840463.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e061576dd2d9a17e735d6ec64a114ac4079a82ab
GIT binary patch
literal 7337
zcmeGhTTmO<^{#d$t+aZ-cw>ldKsYvFFs{?oFCKo&L$IBMl2K%K!GMtPYO%pxwQ|Q(
zOKD~h({xzRbf$9q5nOvF^w0fjKHcdL0#d76cZN*d4}Lm0w9`zcA3b-q62cZCNvG|!
z)63}Yx#ym9?%8wCJ?Grzw`Q{uLG%6K7gypX2z`PFx#m`Z^>zZGS;Qii2%^61ljtLq
zv1W|yqX@(iBZ{0HYxc=%IBLYS8HYzKSsXt|vD7W<zRJ+2H=x2l*3N1<G-4|vPqzhL
zzXhJ=46I>`IpY?126#-Iku}55!Wjo$to4?*kI7rbb_?~HG>9|h^*2uuUdJj{*C(5f
zpFQ7k#@~CYugiZ<Hk|79cU|i8`OgeE3tmSDFbTi)%K*(H0nDClBbpqv@nnhn>U`9>
z4W%Ye>Dq>p%u~8Wr>Gn4M~Ek;kmwT4d6>L;s6Yy}p-~PJNzr)&26<VYFGtU6HgT1R
zC8FmBxK*??R14ZLH?#nIMCxYgHu9*=>xT%DiI$3Pu{8e<9?^~0ik1~f!q$JTv4m)3
z$s1t(`|1uv%X64$g<!~$16_q^zmNA0S|>^pZ~YCVSBjO}%D3kvEBaK4Rbs^`tQD;m
z-O(N54pEQaTC4&s;Hl8mh=f?9K(z(Zi|s?LSp9&?$&bFY9d*|Jn|O8>)nJ#X5qBvX
z?A}J^?oHC_wxcehLA_|@ABbhD9b6)vv%@BvG;Bwal^peMqX7~d@Oy32x^Y_`?+ZM8
zL>o_vdl(emBQ}aJDSNm_tW$Ky9{n<4>s9Q|+#5yr7OYexoQhgiyO$OHRBs~+<3w?;
ztbThpb0vv)FBG?$va?%QRC&`1h2sCV%<ll$@^cD_4kcC^qx(cdv}q$ch(@s~cM3bv
zTgPDkn~Pe$S+Q$Nffp1z)kti?bouDIzkt5@{wwt2{+td3dbfi@Q^>3J@i?rl;ykj7
zAul0QV}Z!1S0`(PpllrH!$W*v%s<S^R4^Q1WnF*|goZd-t3Dz^nCHB$GVz8?cAW2(
z$=*{w+1PQ>-`mx5w#(Nm>vI5k{^AAM6cPAgmh)c@2m@DSvpR}!SA$$gX4K&o4i+-1
z19o^!Hu7O1z)$%Vcq}mKR~gI#;DhQYBI`n!Ga?(Z(|$fIGs7W)<AYq_8V7GM5Dty-
zc+YrjR@pE<%&MBu7*y8PVrWc};g7(of~*H|elEnyv?_O4ro)4S5l#R)Y82bXx}l)|
zN+38W6Qi;g&rI?(UP(J1jsUTK03LvpjTp$vz*<F`mA(a*8V+R%Fpwhv7zm(mk#&=J
zx><d;$Qpn(lPxk8o)CZr`WBfU&2bvC_Q7T&See8tlh*>lNGs@6^VQqu7n`n!`O(OD
zV1R475*Qc_2v@?Py@4SvBs4|%fhK_)8*hS9lWGnDoFp<B=EwGpPx%4whs_tlA^$)a
zT;LmR&28<iFe95)@==ZtaY6nlXs3r?WC*q@hW=thcIT{l#w-PvY&Ee{PptOoXd){0
zELnHNPChYNrq3nLNwrI+%2?Nm-j+POsISS;mW<w-Y+uxu0l1>KFX*eDxID8bW==?_
z=gQKR`<Gm;al;dbYqox-UTREDrOTV=ThiriOO69^ea2ZXy_t5_CFm7bRmzxlHO38@
z)>jr<yWiVCdvNBUbTIX1x?<n5v+2?4IK84bCFw<dDPGB1Dji5$Yhov#GUn++i9^XA
z$(Rb<u`V$UvCfRACUtBk96SHi>`1mG!zuBxxh+m)Z1(q#&z_n&B?VHIORjxs+rGFq
zV|69Jm$uf$sTG?$u3d4INPE+c`nlcnwfDSfM=L1lE|m_>ycIWMgIrHsPu`fLmaTi^
zRDKMLeRr;N+1dg^{z?9i8BfMtl`^N@d*|tg-%K}mr`_F;+zUOg{iZDKel6bpMY9VR
zFQwg=;@wYRA4_IRB)fF!PWjxfWqVWncro1Xt<H?6G})WfWSnk^nmHu#sm?o7X=g*c
z^F<8yfRl-n$zG{_ra#p-$9`mLeF68_)Vfkc|FqjzTy>aO=y^Nse)~VI_1YN%Sq?n&
z5s0=c4ptUBnX#3_F#sQWMVk7Z*$W<I@kmu^OWj=Q{F$`(NZNAb!`if^BThcC*rtaP
zL&<=&b7pACQVkf|I87($q%#?rDU&)rqHCV%k)?4R&Kr^mhz}5rWD;Tx1YihzY6vn8
zOyr|14u=q}BYYXK@YR@4KO7nlLQs$mIKoa01q5!OFcEox2#4ME8ptuXEw`<=ZL>&3
zBY=9o^+RNS$MTNt9c$Dm>L!VZhCre*suOiAaRUl;Rx{cFp+R#ReIH8m>;**~5yj*s
zYzil=3;a+(4;J!kzA^_L@d#?tM`)yIa?Yn^CZrKjlo4<&Q`$yBATT*xvD<M@<D4Xx
z%q4DiqnJ0vEpcnyHb}DCTXfVcSaT9ZGu{{x!6iW>QcyB7U}<}9cH_zBFNIso>vHRF
zF`vJFZZWUV^Xn3}ge76a_D@)0NA#jWG%33Wd-;IAuU>&+r<q>lHTZaJvTS97FZ-)U
zp&Q8Gg<*hiYM5!g9l9TrvnW9%GzC=<E@hr;2@>whDt?fJWi&n>i}7k?T{bO24rYh1
zc`2DX*LC5TtW|0hz7l9;o$B*=!)s!(7=Hv~=~sh+vCC}W@Qv!g_;_#%3JzSR?0YpB
z9)K)+7=Y~j1W-rd;|lsLh9q}N_dxdnbB~$tet2xD;c&Y22oDt@QnXpc&gCVP`owFH
zwUH}<aVWN+$bxdo2<cUr@&|`UIhh=TBT7Oo#QT6lwuZP#!9O0p&hc<&{ri<93Ti9W
zme<Z7#|w1et`m1%xa-E<3EbsRGJg^ePeCW^aW#Z12NH@3rD&3=A*kK>9!!F*!oLPx
z1bf!zQsU^*qgnfy3a!HXfv^vAG{8=N9z$!TsILC~*YCcbre2D5#oLqZ(!q?qV$ohF
zU5}k!VcZgtI4t!nGSv%I^#W6!VI0YkMW$wfs##!aGK>Z1SILtqpSyZ@2juSBwuRCI
zi_C!q>c9eXV7vK`8OIZg^RcBmZK;;7E?H_5<ch@_C!ab!??ryn{<xwgUC}b%_#yGj
zrlpGGA0A&SIq}G`<UAWY`zPi|tn(>lPwq-nB^lZfZ%vZPzEsKFP8cY$)&4^!*)#jb
z%o|eRN8e7>zTa@SVXo!pd*-fwFnMqCA#wjZ8QPKTmby~icYF}jlRAk>y*Y2fRmTV<
zxxX?xt!~YROxD<G#WM!LYWariN$e!+pFuy1hEWtE8;+V$BC3g!QHs?>wO@P`l*mAe
z6idR#0XUPmMRnWoXhbcm#UDZxF029O(tj;3T2NPoIHiMVK<7T3L=B>01fR<1nuu84
ztAJzm{jhS>sJtf~B??x@c6qK1A=dCSLeW<}_)&&6MonMBLPq$6m9>u=<F~bs>1)}i
zIM)mIff#OLnFpr(s%^f&PG-eU|MeaLZ)>@qv;EdyVf~+ZTicg-TRVPR5kc~D_`H;o
zC0ApBTE&Lq&tj+sI!I&_YyhtEI+nXOJisZ0G9z#i!9Ng)aQ+rAxr!hP^Otjc`~`qO
zBt9prEbboRsUh42pu6BDv-zSNW0az=K;C}HSW40;z_kMIBoG&_+ve5smoN^0Jzzsh
zO5iVIgie5pGR%9;vYzK66G0)8%`-T~WRp!lhLl8g977$r>x53$L4F#a5M)!~$AArG
zBW57ll%TT7$*!1VQ-<P!@?H2v{tmW@p%sfQc4Ezh>RJmj)Qa61JN=Y4PcsQ7*(J57
z+UE{FY+t62$BsQUTBr9U_9O?Tk-1}c!t;a6#&5+sw!oUpq*|#rwR6c_7wcZB+WFJ|
zJN>Z}@pEaa9G2YOl%{H9XOneO{ffyP>w0SU%vR1+E><@`^eo$tLVC2ja95zq*;L(J
z{lmIt`q+jhBdNxD;%*aQjmI`Lc@CS?WWMoH`9gqOHV+n2=wE7sdDpVJ{olRloUm+e
zdtp%;nVd17l6Ad$<uv$wzV7aBuSIcOwb;tmi~EA`C2Rt|e#mqV;_*KOWO8I!P_9A|
zftwuX)mrR=;^FWWCM3wz<#0Hdb${%1GLv<B|4=x{-b2}PP%SaX!t6wlJIsqf2X2WX
ze}-<2BnaXYWcmX#{}ENL>5zuLU4FBCO>>?gYS(CV=$pSb{mQgvP=-cib4-f~@lys5
z*GZ%?sf0ldDk;tE*qN!U$#}{$rBxYMS;kZG%)OhiX7r}p;!Sal1bD?@nXXJ!u4w^=
z#lX+;NRLM}vb)v{7&0PoQqzoSjlm-mvN)&v6a8yuJhEUaD~4>y;aRg|$bl@5H7AB#
g$mUwdYp(Ybh%kRjUmytQvvCcw)<9u)lTqyP4`2j(@&Et;

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_843724.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_843724.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b785a219de465b0d1cf903c2a7d54f86f554cf4a
GIT binary patch
literal 8238
zcmdrxTWnKFmUaES_VxRfciQ2R;53kD!$31MuLKAXh6ylBHjLYydlT$9w)^@9NL1FE
zRZG~tE#XK#iqXud-Se@-EG=zX>Q&RyNW*?DtNroC>5ca;qs?geiL@W?VOJWB_G3?7
z`#J^;VS1UBb}w<&sZ*z_PMve=oKwX=naxH7-^tY9T;ZD#`YmZFUqc0W5~C1WLM&pb
zFd8q{)Ho%#RkP}G4MlLOuy$5AuA9}5>nX%hA)7MIM$M`@O~|p)Rv=bWA3vpGwI68i
zR>;PU22}fxb+S4Rg*?hE8#Swc0iJ#V-oTkyBlm*YKrD!5UfOGdUXx5`=FF@GepdL|
z>aRBCVeKDi$1PQPIzB+-Ru$r`)t%brDW7YdY-rS{lIXKBAsCGW!jkqv1OUl&<n-C2
zr~G3l$A|o9B*V!u|Io#uQU9q)=Y|ZB9$+>6p8PdHOGp46mcNinfi`NEx?AZ_I5(kG
zRViJYP^znxZtTRmnF)k=Y93)1HdkTwjeRw<Xf`-fAgspD1!z>~^1K>7t9oiw18%^c
z1+eu*W26JPVHUIid$8t4<0kWIo?bsfVJ6Xt-MF#32M>0WwGvI($f_4Wx{2nRId#fT
zHfn6g&37wWNVEtBrH7?(Gj6#{v<BZXlu=!thuK<jYt4M}c`Z{YC5&rP=94*T!)>^E
zhH%o3-HA8w8`wzpi`(R0FQ%|phB|8Itta~q-2RzHnK@)u*4wCsDj2d<!75PI*_LNG
z*oswntIWZ+O*q*0nmE{wZM+(9XHa50w(|duo3LJ%hzrxCCcLm}kWU3pbZ$mbwy#8&
zGOFChMp^1RHrW-zon%G4<F!cFx9MtKuW_|*?894R*>&UXvb@NtdK0j63wM`$W$o^)
z;jB(Pz}ku&-jpR#v3si4SJfX?-p|gbM`fswZr9UV#p>&7wA_cAWp2C3sgWgB*5a-j
z?(3ZnMT@WJjJ&EAcfA&y`O|2TNaByzBH2-OR7Uj?)*$SVBZV=s8ygZm8y*rHagXAU
zj-kseSYB^ko%hNb?b}p?eT1&+r}}H?>sy{okNZQlk+$ORFbcUUU`<soKT+0Gc0!?#
zrZi|C`Lv@v2@C5a7OxY?M@gF5Kzzn$l2k%iGRFAmG#{At2U$rIjs{psJsXTjT0Rh&
z<|JL9T&skrq@RLrVW3~q#)T+P`r^WTjFYsiTp77AH_Jr?zcB9`kf=YC)JM;bN$Rna
zqmuFH1^?L4xzj_VW0GD0)Mqc8mrQYi53-#9y?`)zMKV`faqj&v7m=7s^9l!C87mDo
zI4c?Xs1V@i{W3foxbCkEFbjYWS6XpN7a=3#lA+w~=c5u6j0hYb<^oqa*zROB65_!<
zBc4Q5$q);&6;5aZ%Ij(gG%L^HkHe~hq=)JJT!fYA%Dh2|j!sR*IRWUb8?5=S1j192
zzMNQ{lBgL;I|EX_&XaH}X=Bki(Ca6m0;FUlKzW)n@+u@}`gkx>?j?ZIOJLHgyH5Ig
zD|MfwBWm^cODe#ruJ=ir=$z0imwl2!?vpv9XOx)?WqA=XQlNLjh8iZ04*-MSKmPl}
zg`R6sekL9ZOmaO}0+TZV;Yu{JD=-aK(G%w<djxJa)&s4cijV{_uJ}}xpWPjs_XFM!
z#vnu^{>dnq#CHY<_Vy1#k7TZp&v1N%3-c#{JCcdU{|-)g68(n_*_}(~MRPV#uz8aw
zA6f0U66r+tT*3NA^28&P<<^<>nQTYF)S4Vx)7vtqAL_kD+EUb8GkYHDn*dzX+w=Oi
zM=sCO@x|lWkvmOdYk$EtkTN`SxR$yWyRzN6d9k^7xle2!EI8gu>5I<h>?P6JnWooV
zZ8@Xp>P{Jo1N-v>!yorA?OoiP-J824w(MSU_B<F#(QA5BhJL7TBr91Pvu}x3Z}P;N
z$D2F67)_piWU<|vN>61ba_<x@1Igo$%#KW7CYrmpYVJu<MVtNOBTFY2Pi6zThJwo{
z+I%T((dx?lg=p<eY1V9RXgV6Q-J)Y#ZccRU1m@h0*}aRGQ^qRycLrA+y{nD^(J}DF
zkuOI+A1OHAN$J<V-LQXQti^`*%$3yf-!Pt{yDeuH-Mg0QdvA-q!=iimf&IaSe{2%n
z-%ky{q%(ivqUgRzNIY5h;-#E@@p5ilboZo&AAv3#78|nm?8V#7cRE+>eXI6C(LVUa
z_rDzfe7s;klsfVXBt@q?t6w~j+mgHX=}ytPJ9X@N46%$8=@Xf;?4HGm+~A$5uT5_~
zhg&thwf6iT-J*N6?*2$e{@lBw`(5a6Y|B~2#-8PFvGG9a<kMVlTe0`7+WSR&{}=sV
z?*Dv$!G7@BjrmsWgRAzvqJ8f#RlhQRWh~f_rj9(njps4XZi4;VH1I4gxN7=NX^29W
z-fvD&h_=hN*_1p{v^B#C0u$Vyo&RUE4-C-a$+n4>&O43Er$pa7qUD|Y9iruEN=@u`
zIz62UWVbF(7cA|7p^dlbG@Wr~;)_k$qo0i29?8A`^J|}8TkYB>cI_*)?*E#8`x`y7
zbU%U9izEuX4LChX4gL(=J2=&fgELOfRed;dwh#;Ad<P8SJIOeGFcJ%ci;)b(f6q+^
z1c*gEC(QAY$=aI?xy6$l;7Jm~-c8F*>rLAdf`|&JXTJ%^#XhurX#3EbFk;<xDz2gs
zHYRjf$5IOr8(7uM4sba75y<G38}(mOkU7XVP#Ir+Qvf_wZ;iAK>!!-{w7@*t`cywg
ztS)VXQjc{|(m&PLtfzW~c@4NO)l284;~t@sEg=-Do0ls2MS_W_FiJ22@xb!8kx2=R
zf(w}xXrq>837Sx5VvS0!!ZHe!Fr_RhYsxmIW=$W^3A12T#$z*i3&9BPnJTP-ES~{Q
z+LhjonytPiyrAE#tp9@k>Z`>I`YqM*pr^DYZ6o)Uv=y|g#|CVYZ31lNGwa<-J_nY>
zj3J+GlqZ*RIT>4M*vJyRvvYC5`yS`zu5yuuHj;BdJg#C7e%HG}yWoQJ;*DPk#5nJ4
zFg{C?rv2Upt@mo&yJJDM(<@QF1s5Er=V;bR>bZUhiplDu4K#=n37bz2K=C8>5=v8P
zRZYT5^2KMqv>L;s9Z`m&v?(=gPc^D!I%nW{NmmZ!kYTaGt3HjSIWu(ru%wl<JboLD
zm2{PJO^nT(OeXo`1WO+X2WH=60|yt{1F=|m9#S@v=<Plbj!r^eau9%We+;POEl~VE
ziL&mT?laxrGQVJ!hwmM`-}Kel!j98o;~D-W^z$?n>%_Qyl$_=H43NJP2})YXVj<}?
zLQ*2k`@=y<FUW%f<iCOI{3QZeBiwbtAB$e&c<@dBemV63*5#blXXi(Nh(AS&)1){<
zicwOWB}LU^@!uoOb5Kb7ihd<E<Ysc}DQTu51Lol&3(1n<F9Q@Omi=@BcIeQdvW!f%
zlHr3uc#(`)0KNVpiAs&Av+L(S`1A*&W=nD?wI{PDySHd>d1&v<UQ3RwG43ptKA1iC
zkZI3r_T|0%3Q#ibMaGc{J!HIj&Efo(!v!cAZ;`Rw+Lzv!_2ioKjXNJQJM)@wzW3Pu
zv46Pq_m}RUdN7y2@aOsS6ZwfB=KaC^4@3FTOn!H`07T5r|H;_jFpftS=c=V$w6tg6
zFIYO#>NSfsrGD)6d>sGDp4FB<v88Xh`#$w~Pod?={Ue2j;}0AK=jr6>Uo&Tt#~y3!
znQfw`p-3BwG$a2xinLV*403$3{}rG&1!0h-NSiadG*sn3XORR-7s>uYqI1W8cDb~=
z(oSTuCP!pjn*=>nKVo-s^!YuMODKpEaBN7NNl*z@LY>gCs)Y9CM@{y1YOG<^aGNF9
z6!;RlO~$COmerCMLwOY8fQ-_At5LL2Srt654*VOf+^G`=YzWnRg@ouuTnVe6fRz(Q
zd7pHGs#%@L<(Y39v4)>fGQSmvlVDh5!t@FfGQwMKSw5AhwW)ke-%399M?EJWh)O1w
z`OI{;BAb`U$t=t1|GY)OZY_5e*}vE-tp9IzYkP&=+R1J)g0Scq^=ag|zn%otIuR64
z-1WK_3J8yLYyjS4bS!r@ILXO`5+iVN!9N*@bN)V`dL4mZ=flc4-VYE=NzTbSONs}i
z>wQwpKyluuE=Qm(1S6-*HS_gD43xuA4Q>E%BtF%yJLrSwAA%#VKx{+~GW@#)p%Wk%
zkMcgVr02Q#Tv&*gBNqu;<?uB{AUX6s9UUbdM7-FXAem|(X*QURlm7~MD&&>Jon02k
zQ!x(%<&WSO|1XeD60KQm$>Svx>Kv$vd24oOa^x{>zQv@O%useuZqJ>)_x7yNN0Nsh
z8?CqAOuw0#%7*S7z8zhjS}}e%dGrNXb5ph>JC@s8Fn1=0*V?vzGI4t%c|3JS)HK7A
z+j~S!NAh&0GuyRhGAD-~+dWIIi>(jad+&Kx?1v!W+Fhim;pKF$^G?^j&K3Ib1}C9h
z_cHZq4`7XlH#m6)t8lX1{h&D?;8x62br|}S%3#^GV&3z=z33fb#XR`jqBJr&lcRFf
z_37o)FgiLqJUk3Z88O^S`c}?DcZcCAa}HjiBwB%Za#I0go{t41(>w{1JUN<@IusP-
zYh_&EuE+RFzIR@>d3Ya-2$JT#Xf#|t5X1~6rhE+i)6p>d3sg=yE2->kl${H62l<;o
z2ZoB`43s4`MNz*+rhi4|U!&H4LtEA;{mteZ%_Y?-iaJoD(Z08TW%|lgGRRFMvN>+y
zH2xh!norb7WvUReD%8+e^zABkb{D<d;H{zPYASkKzH#?c)}r2Y6W_okHNa~I%dOUQ
zYe@@mNr%AnNlQ;!G_t!&1_Bw8y(#Pdr1f^IXzMI71Z6@NPlj6xFNQ_)){>c^EQHFr
zXf9bv%Z41DlAS;fWO0<71acvpt3)^`d615|IdNm+NdvT=T%{0Y{vCauqMYBvRLJUu
LtnLOQ3+ulDL_arq

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_893238.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_893238.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3a4ce16283a65bf4052e3ee413c5d4fd1a274a08
GIT binary patch
literal 9022
zcmdryTWlNIbu*kHIplDLA}LZ2>uK52(vtPCyt3WhJhZkX+p)D#{7MXM2(D)I7O5SM
zypnMV)5Qi$A|ImqBRUAMa#1w&+CY?iDSz&MxoLrDEF~r;PM|dY(H|YRKv5KE&z<4R
zG_{nsPLXzO&YXK*_uO;OxsPN26USKzcm}6GpWLn^h(F>+_Hk!`7XnETtAs!Z<ScPr
z|B}~9t!<d2uG1tTlGB==tf>AK3?e;kdl`pY0<{O8-UDwejUQ(O(<k)(Ob6G^79#&g
za0q6Rn64<%JF^GgvIpKOS_F0vnhj_M(F!B73LO0S(tP8Ug8dWYbvEb2icg5^HUlBr
za@KQ8q}REN%^g<Rsemj>v!efoD5#dPU|@P-!Y_-e`MnG8pZ=EbVix$;SWUtBEC5sR
zd$Gvi`I2GQ^k>?Th4Np4yq}?mYszpMa-6kgIH?@x0Yu+ERlrT>d(J|LMm0B~k&~(0
zAHQIDNva;zqq>_Aec^^ctw4s$X)zY{+JFwAs+&fFKn*ja1R;@2L>5zEk11<){wt8E
z>VC$v*rIS_S^jE)x(O0lsc;i`$%N`qqbA=RFrvyVj2gin;0+%{O~|FoY3&x|j+3Fk
zM+B-tCTusBMYYJBgBu~rh#wdPV%&hk12H*D6Q*FAP64fW+?Fgod<Y$a79PuCM55**
zJ=QEAD$;}4EG68E46n%9veZ}PxGW{yR^Yo*v2q9<EV8EM<+0p^XnsKFJo{D|eTQFD
zpSO&@*4NZ`q>R3{*VNaJJQ9W4St8ty-a<#PUy&EJYyQQ#(E(Vk1z3%$&GJ!1K@{=X
zS%4_A=iuTfs>o4_W<L`}jx0Ugi8_%()8ADvN?4PMAK>fQ=Q#1Y1`k=ds+H2%g^s?i
zM#%R!kV|?N>Auj$-i^95xzzI)mP_6H^iXDP3m+?(#ZtN1^P2j4%jo;d$faJ$rCxL_
zlS{n?xpW+`dM@=A<kH)3B9|a<Aae_%s1NmJa_K~Y*GffxA3DCzdDw3*oj`BDuEr(8
zYaEtv;Oyel#V&@tq)N~ELo;5ZYLI7D>%0`4ko<GLDM6)YgML9Z`6Yi~LR5_*IVg$V
zlPdXLl{)?YC6&5#Zdj$>zj9f%p1$I{G%#{uVEB@14v8Plih+=73CYrwAo><R%!8A8
za4rwdsJ0C6STN+9d#RPDg{A@pG~AlWsR-u#2<H0;=KBZ&Z(w20H!1pskZP5JvR_*A
z2~%?_uiNVjj*o{#IV55COE`}tm})}8CkxdwKPC7+^vh$DDuY3+MKxjw8>@}i7Xpp4
zYR$C7fS`H82d+>}SU0fh-x-yf4~A3|b~;9C-x<}s*zKE_r4Rr;I>2CWXeb7cR)Y+S
z-Kt@+N2P$KQh-+J;DX$(y?ay(hIK{^X7sR&K1uY?>Ud~O&G{$vhDoQW@Wn`#0U?c7
zhcq0Q#pxniGp8YR65P}D6`%jO()DprnhDMO$HcBl|JaOQo(u+#`X|JI+!d0>x@2)~
zz6)Aindy=t5JTfZX|8jA$p?5J1ehEQ_{M?|W+zYe9_u{`6qU=c&xle$oRtQ^L^J$C
zCt*S(#J`>-9IjPvg-iIiDw-nap4uJD;aE5^vSn|KoPBEJmoLUHCYrZwb&-J`vt!d-
z|Fo)R_2ZR~6E~CRl*YHWs`{d~r|zoNYb)0h*OOkQzIWZP)SuXLpNv{l&bkCrob565
zPE|FqIV)G&R@xG6Yv+{Oqg&3-sCmb1i++6jR-)~(xjDt~JDf9qE#~{N^x4v#rKBS{
zwAFZA;f_ZJpK|u)@5R0s{|JOf?sRN%ZIMCUoD^T1xT^3iF=~geOWaWS!%=F7bHyhV
zu0ArD0%&@ze<i4Jha-dk!g_XWT#BzsctPShMRJFBcu%56;SWAH8n~9UiLkr>W+Xv_
z5y3T!!h4^aDeg#`0d)NGk9ssTsqoD(0RHH63(a+=DZ)~b<_TAA;+*0<3?p)R60RSO
ztkH>Ucj}ThrRKQeI=+5mL-?Y9W8!DG9@Qx)t|+c6Q6{xt#%D10Yq4wbYioU<HzzMA
z+wOj2{p!Y<FPb-oe&$nJ&TMl7Q3G~Rc_zMMc_KCupIp28d4Ez)4&C+TEmIB;Zu3J?
z>gj%%{=im({qaN5(>r!Y{B&$FaWE0O^Oj;i7^PFMV8E|j#T$3K6Ws1@fN84qMlH`6
z>oOB#;x&mgYd1dkuU94~?%vw)Jfy$yKQ#ZMQE5B-Yv$b3vP{2W&S7Ku|Dmxsbdvpr
zF;WS}Rvm=6@f?k^e}))=B(7SiN*qY`{k(bo@_O67Z){wBc;=VQ4~Kr?Q`#?VJ1#~|
zPxr;NpXuLsjCkte*P??vuA0Q@m3P-#lf8F46jvt>{$k9Vh>=&_?g6*gv?eV|bx)Mb
z#z_4dlf3bB|3>Bd#JyV&J&)*L`X8D9p;77j_OF?dY>e#9^c!a61uUS1N-j!$@Rd&B
z*CC9tjxG4I8@_eUznE#L=BdE^EUfFQNfPA+DKLhsAKB*s09qx4hkbSx&iB(<O2Ky&
zXkkm(8fL>bM3&+ZNPK?|bBIH>nOa!j4d;o!CJ_e}2-vj+YUZsRuB1G&B5vGJz-1`a
zOEH%~hk3ymwj&E-<;+=)Ag00E;s+${*&FXT6|R74!Z@O*OVldl+=;PNovy&blJz?9
zUx_N-OH%e?+n~ykK}|cpgy!0t7B(UV?zBYM5pc`7*`2O@RRZN}NDjFwOGg!2^@D)h
zmjOAT+C<-mnn<9#Kv#8^H~&S}3G&OmRoWX5O!qT$1#}#LMURlHjqO3tRoV8So3nMY
zJ?Ko1PL}DvG(E51P)5EqJumMlBVU@HAAf0jIsN(ZvyiV8G9fdvBmRNqex^oB63B6h
z@LGp={|g=oN0fe3i2$_wO?Y_?s!@=a=3!A0#2Zs%qJ-0C7tgELkUy<^dAO=f`Z1e+
zK2+&3Vd{qTZQxUlaEF0Yyb&t6y~m^xjG~39@o|-c#Y?59;K-?3;n*oJ`DUl!0ErKe
zpa<?VK}j{~w-m2a8Ul3DQYf9pxO4c0Ez++L=K)fU`pv<luanY2jAQT>0^dKR7R-#-
z1Z@N=Jpq>{m4ZWe$O*_-kJi!|EN}DA&(ALT^pmbM2B;svFZ6r3)<uZ4hd9#y)2e$_
z3f&qRi1x)#B_>mj%GH{cn#8e{`pEed>rPZZW}7$Z=1sO4x5(Jn6C;n=hE2L*lWj<`
z{PL;Tsf1^(cC)(UG25|8cWkm9d!ToCM`S3)S44((Y>xP;ACG@Fb7v;my56?c@K>Ac
zJCQS)bF01PiM>&=H~!t*KY8cwJCE(1n@s1Xy)%XJO^Ur~t^X%y@1A{Z@7QEIHtiiL
zcjKyW#kb{ded0c%xQ}ePJD#|E6nD>-yEkh6gBgx2_89eycRk@76uu$x(H7qvrJm7_
z_#uU^N->rc!)E_FQx&zF6|FJ)!N5;1+`F*Rx>5bl?q41F#{-)meE-P@qVj>b-7yX#
z+KI~XLy#*Avdh+(HQw_>4*GbLpd-aNQ;a9YxKfNGRZ#_h|E;&yXiA?XZ1%``X%OZa
z&v)*@Nq{5n#lORQm6#&J@Gn8y?n#CXVJb`uhOn`qI)N|!MUS=yQ-~HQsL{eL2|r;|
z85sjI3PxNn*QBroSjzmBq!>BVE7V2t%D`k->#zk`O6{145KQkve}Z`wdWKU19w!qf
z3wqD(shVNhYl09ge@kliX1ow)1#8&04-Z*k&C>mo+3Cyr$M%){Q(Ed3{~#9G1onaL
ze&#gsC4S;GKmDJN2pBDYKkNIwqr(3GX0#Ri7_9@377?&-I)}ZqzG)5vY8N|7dLKhg
z@PZw1LGXJ?ZNt;JR8|&4vTw{E5`8^hY8OiPgd}E#r0)O(`f!r$3i$O1lcw+stH11}
zinhB#eaE09+<zgi7jW8USkUiruTi>+`HWE45dzvSCSAgPjKa&ysb)zGEzCkq?)w<&
z!>p!&UcoctPj35sc{_$W+k!m5AgeYR%6zk#D@oqq5C@uG+F12H)uFlMrHyp~IDZAd
z(0^(h>ki)J(l(;CSD_DTJ8NI!#E!!iIsc5|mf08^A4v4A^(9Yi^ldZmMf#sv?aS@4
z_V{>WI@y0GxIVsZ{aWPo9$2m>(VV!n*0RO5LaC>|<+IT{qmiNLMTM?~E)RDpbaUiF
zyfx7V6`jbyGlyrjZl&&VL-&Sf+wslF`5i|keihhq0j{5I8?D<+f8LVmwIl1~-7dgd
z`}39*VY8O3A9+-}=@+-T@e&68S$(ixxy|+cZ+DuMw{hjI$n^|ib47-=ZP#nkGGcgm
zaB$GeYq2X`#!+e451O5`P$*x3`lZTbA&JFwYI;i6{-Z!h78mEG%&GFSeyXJ4EUMBU
z27|MD2H==eSv~Z96Tw;G9-;NF2PyOJTu@k;6~8Xs0zO>D582_Jrbv?fBVqe3!TpY?
zgVKV5`Ly<SZQ5{?B)>zZI|!&mLb#-l>g`UV!nurMDBY#Ey9p?QjK)UOJ$n0Crv0a0
zt^I-`47RMU_h{lkU8=Dq<*7|o*QY!OQk6B&U0);ZDYNZUbQ`59fOjnXa$T%0Z3Gys
zfjq!1Gj1`2yE<*bkd=TSwyoIGEN<BdM`fDB5KlNgX*-50h>FUz14B-NccyVK=}N-H
kemZ)4^o1K*FD@7elKT^LnIv7$=M99t2~L5xS<PYp4Wz>M{Qv*}

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_915460.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_915460.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..a2d9b7a07b9df99f1e94b8c0726fbe8e66d28a89
GIT binary patch
literal 10519
zcmdrxZA@ENmhbuV`TGO&WgtNKG$a@UA<48&Lnxtv1WF(w5K`CWnGa)Z@@xXhJge@i
zyRoyQ#f)YZBUOqMjZ|k7sh<9#{Y6Kk-Kx7<`2}Wh-)1#*hy4+0f4Gy8I;wWJd+xIz
z7-CA=&5X4B!1vvI&bjBFd+xdSoO9nls#J0ep8uHryNQW14Er5w@K0{K^7Nl^47-hy
z7>PTv;nW)+#<{j&S~x7iF+1+y`0!m*Z&F|vIg~qLs6`6*fQ$Bki}!#__JB*X!^e~)
z@t){GTA*Pm%s}QOre(vjY5A}m$7C6QWF9HEV~)Hm(ku3WEBAn_>@xcvxG_N?(udl<
z$5<Rz16U<j)7n*}4t{$0<zydi%s?966A!DmRx9^CY*-_}?3%54Yp>&`{3mE)J*@Q9
z+1~bUYd2ePrr+A%(Ra3^$J%@PbbrS{zjdIar@!|+D+A2Mw)22t6=!+|I-u5evEwyX
z*52FGb)mCupo8afZWKw$KQgEY;rH}cP`izJ!H80iL%`Rz-z5G}@E}d$E8K@xm_cjY
zhgOt9TSVu2%4s95xgo|dx`@`H_YDxjS4`t{F;^?0F`!WJ7@$(|b>9J6;wyEX&lpj(
zJp;Z*i)bU_v^ATu=c6ZunZ4+;8?d2#r65-st>q=yAv2P+j8<mgG9@jf3lN4bof^R~
z3crrgX-I}N5?<!*H;K~)57O(y>7#sK`W&9#caT0v6Qt+{^uGbTeHFC9BcaP_F~_OW
zRYYfU%ceW=PTi&Y@jQK1bY4i{$)PKJ)pRvo#bIlJf9VvA=&PkGX&F~D(dA(N*k1}r
zEVaQ>8l<Zc6v5L_J+C`oUB)c4$yGwvq0#8tU3_<QtU}}806Tst=C$HL`(W4O-D+n$
zHn%LNejlj>bmcC2s`wf0o+~H4X&3dL(vy;h(g$eo!t=k7|Ij}23;$&D6E8&m!+Y3K
z4bo#)J8IZx#wBz^Ry*3wk$9nYWTx{eA$?eZ`3}?d^datCFw=)QTS2ExBS5(pZBAji
zon^_GOBN?iA4u<s#_zQ&(pH6M`h)D;Q<}0o!~MH-wZ$FIyMw8d2u`8rKOqk8T3I!}
zpL|W(ZI!Or*@M$ubB5-!pC(ONtzh@)FV+fL_K`|JH*-?$J|%X|kls4uUeGCVWFNVN
z-&?L1v-?}QUDFD?rZq!Cb?Q{iEWy%toCjcc;QdH^suny(3yJe5sW0<9e||o~XZV<5
zzaB~N;?^w-J(?k9_8pb7x}(qRs9o~YnRb`4qfD|M3WWwHoE6#TCp}M4y!M2LOxrwD
z<0-WyUo{CR71UX=+dE;W(qQOGumZ1>mCsP_amqGrog`V2(`_SJiH)+k#_fQ0v(hmD
zd7GP9vB&GC?5ubWSlCU+SYhvl0T#c+3fp`8Sz-T~9#-CdAsw{#v+AAED=YEXuR856
zR^pnl+ei;9r`%o}b=^u%PP4KU&PusiZF^h$>mAnaj-fOsR_pOnlce41p7mPaws}V<
zSX~Ar%{3F09zdT#g@!}}snf9eG$+kgJI!YskmkaVK5tF)pwJ3X=oq0Op2H{<v{6!2
z5Kyq<nMu+LGeWPFv;?Z6&a7c{mZI#g^favQu`!R`%Ze{qXS@_E1#PA(Ac_@fO6CCt
zd0|oJSphW-zbRHqO<5;w&M{U@O<PAjtRk&M4knmtWCc?eR)Uru$&h*@I%#Swz|S|b
zqEWX8O3$RLkw;hn0Y5hoxGk(~J}sMv)c~y(D7OIkJSzkkD+C}bgf;OTgK3xjz~`F_
z<~cVt<(aXK+RYQT(J7mE!tFY28wV|!J=Cb#YoDGmL(80=s2A+gGv=nI8)mLs0d57`
z@VZ^rQ8!q~am$gG)<(dvsx<kOopRZoR2PVdmdHcGlKHVe9K%$ag>%7k;j3%Pa(~BT
zt^T%ZQ5CVQX{-Ea9&2<9zMwBszNV@4zy77dkSMK<o?uFkFTcL>4)gLwru1T*C{Ac~
zaYHSmtqq71`rNQAUfIGFv@rUX*nIp{KXbI7(f0?W34K9Ox@pL}-MQEq?ur&N#Z9Y*
z=78+6-f+8Su_jy>xy~3HV;08PvZ_C_EMxR-&`GNcor!1|gPGBqW3|gxrs*uBJ-ao~
z5vJe>1Jp#keSkSOz~~18(haFHF!$~|;hIO%@&uvYkf}rY!P57e?i^n_9_fopSBn}M
zS)>2dW0_*1FjyF}gvM882mGfJYHg@1Qoh*Bs4M-QUn(jRT7BqEMq3dSZ)o*DJAZp{
zaWMR5bdo7Kx|(~8(H;wkH}u63e9`Rh{x?NlLS+aD5-Lroo>7%RO_viIUn~wt5{AO?
z8OBf*kR>HpPVP_p!lKaNVm(YsZ;l;|4SZsW4gR7&e)0{b=?zBzMnL))7Gy9u7`hN1
zT(m}8KPrz6#A@!py8QNv;g?re@;{#XteZJ8$kbn2Qw^=FMi|w|+7;{im2u|E_^N6m
zAV7;Y7n}=u!WZsYB4p&~(wosKrsO!2e|-7WviFyL%X1%hGx?o~;;MVLs39`W6gO-O
zvZ7#`x|!m$@qxiV2yyKY{@bC;%+TevkvG>z#+Z?@)uHjE5R<7k|16^<i5H}@F6P8V
zrhafub!lC7nNelTM>QT0Aj>usgpLGWLkn0L9182h<WeD{I+$A0osdmJzCZ+tP=5F*
zqdOQm6}|XTTg)5lyl-6*th9WtTRHlv;<G8{<PdXs_}9ec$InCVU`}3Q4iEi?7~aqu
z!uVnh*#5H?v|-5m>D6#$Xl}7PVrC4M*r}NJlfKy8FS_HW2AGxs#xM|&C5)x_@JLHU
zy3`PTi7~b==cf#ZIevyQo(X6+mFk7gU}va<Gt21dk1R1VcJzMlGPP3qIlfZ!@sB?n
zW?mg+4qaMP4y`Lk7-fcmDJKH>rdqo&9vlyihI^U3`b1IXy}qa@GRPDij^!^KKDoM_
z&sf@4x*1C^Q}jms(q*tC%@zE&SFFqx>)KmyufOGB-g2y7nL>7?e4)&~l3>c*L{46)
zGSI#W+vrm8Qiuvy-owK+i$9L^Exr@AFnNcfwwP{J)eJjjf07M26q<t*U=O291&q2p
zAlzQg<BYB{G8&V7balBB)<Cn;v_gK~wle<dOYy$TO#5Y~apX6|m8WpnVkQAAzTld4
zyI7)k#tUzolj;CCbs80&P=G(?f`TpYA|IW#ra%xNOxxzu4OTJf^4ck<-FD4RveHS{
zj1wFND;ssY9JAv#ubq`pcJD0Z8qG}Z3t$A~te;lHsed!)rr~DpZHyL?*evdo(K3&o
z#vFj&{fvNbzm;<<_m;sYch%Bjzn}~I3w#e+;O|o)N?MeS7m0KCgaUMVbSsAz-^!)&
zY;+^&!bIs)(JHuh0%?6}T20HRjNr0TqsvLrcFUU%0wJ6gdbbi92Z}^?J^ZDI$GD>p
zid49V$5R9?4CZp_hLRhnnVYjPo2<c{F)ox&OD1$Ecy8P845_k&zFQY6LePe0yBA;M
zZ$^DME%;8nV8^VUOB0lq7JesBAuaXfdSMMxk3-AXw%_#DWugo0!l&WZ3RaLRhrXq>
zh7{9q-^*WXIdZmp@--UUNyBRd(s2HkA0s8+e4gHcY<bs1tNC91D*Cjvgc6Wa7XjlF
zXdR&?bK#`arwil+41wG+At`^4@aZ$w2dH*Gj*{IFur$n3{4CUQ;8_?i)e#J4Q_kaQ
zJ=zJh1};fqRpC+=>@8>j%_)Pqqyk-0!j9C@8b<}+WBUy$Tly**=7R4*qvUD!z^nGb
zZ)ua01A7iRveRtKksZG+M|S*{9Ai1O_WRp6Eu$qgLF-7(`;x!GaV`-iG2TLOSb=`5
z0<&Nqd`^I4L$F3E*t~EEo5M}oR7y#qJx!sl`vmY<!;>;pMH}qNNmQT%WHh}dP{lB`
zUyz+YeHn_s74G+WAt;0$z@3e}WI;SA7!&q`)9B$6DR3T=RBR9V3ORYrBw|J9ItJQU
zF_%?Q$nYp+rye9#ncwfH&On7FUUu51-zIG*ZXB@9%s8(@PKnaYhL@f0QJd3q0xBu|
zUDUS-ia+|X_w())EfqyBMh9Z1`_|RMSC(g2#+ZV0R5#$C_)+m+-+ue;lmA8q{Ju3w
zzB>&x=^<O5u+7+6`6MJtkjS~fUx^`qhV)f3V0U@k6e|R$Mj@rKVyHoaEeC(*ogANa
z&w}@Z#K(Kx>YSW{exq*4c32@eL<+thV64VvpZ8j4+;escT&J}OR5VN4SP5yrHVNa1
zyw_*!T+#zsH<vt{@^*P%st5Q`y{LEt6@92UkBWXMSlOh<dd&t7*TqWt+*#=bO*+#a
znJPnMnsk~4sWq3DQl$tgfvj+5)|=80vJ_S{4jDXUg=)sSp-*{P(#De~Po`E<nYn%x
z@=dew^LXH>_{NVV^Dtdeq%y9p_MbtKtf}t9{QLO~Q5_Hmu7$2G&24B3<C>~CQ3Yk9
z*7TwDzLX)V0?N=>cs!vsu4~H}ZCOMIsZPYkXlo$5(iH_H8|9TB6y7alL<jt50`DYr
zWf2PmJpQhPA~&4>NKqCSmBkfh357m1dh0}7R2Vq1smKkves2H3dDpq7Xnw3I3^zQi
zSkpAbPOO|}n!7%meAGM`CkEr1!3|Bxx~78BR7Ay*`9~UaoG`~V=0su5dSM+?SoiSA
zhcDfKX|?cZK)oSXEi?ohR^>*2dm^L$SgH#({JiReLw66YNmD(Wn8K#j!j^#g%UbhK
zF089cAQ21O)>LJ&KL6<i(04wP7TxWHoG{=CbuD(sHKhzuwoX)osv=jTIZ?;`skrGl
zQ}d%W;-yWsE_Co`W9xZ`P{cUAns;nfeca#qMb3esEn2rMcvSbJyL~ITzw_S}=lrj2
z%G3+SpmAMhWMsy$<<7CCV|QLzdga$L(_<nxL^4ECLa9$ERSBhr`_D@#jT{7kP|t;W
zXf$~4i^{`+(_A)QzNRdWSpdwn4z4Oo_NsqTS{rCvcs=-fsP8A;Q5y`xHO~L_+3eM1
zjZr2~)?&HEkE_fv^{>SLp!`(1T6HdwSDGlOK&7GRX*1A#EyUz?$zzyO??3nT@$LFI
z9&~^9_djYEbV-DtOT=AT=_mlU9%SYyDtr1zC~sqvm=Df36iNDUpTH;diAaG@oN*xt
zM!fss{Gt%zQ{h9=gLM4ilkC$+K#NH+@}68TBmq1==@05fY)3udL!>mZbx{h@a<=Fa
z&Tt7j?@8$hjO>$h^CWzD#^^{dyPk3Q%6|{%<V|bAry%7%<#T9APV@Rn$9ntfNBM*F
zlfBn7`k@uHl2klYK1fI2D67~*PbyAN|K}|NW~+X{>wfRqYX0BMR{I>Y)uGwa7{o66
z9+QZRnkXB9s7t6ALd75|W}q<P)KyeRp%ts}+C5(DsLf-yT1-OfB0_BSd4e`GutR&~
z35kl&5S}AK+y|h?PXC?BuL%a?JbA_#%>Y9#K9jD+B<4N`z=g8SMY=dQOW6^T#LGn~
zCKX&d+dZ>RuP5ceQOuR{;>aCy9)EXiF^>?}P_ZQ-cYN;f_9-W?<5aN2)BhE8{3rN%
z{u2UBKL(c({?4Qlt8QjQ2mKv^)=+Es=!P!G-?d4o78F4R-08GNTBApoTi1wF{<clI
zW}!Y<4{qKOZCi53#@6Jo_}lk@stUv9;r>X)s;b(5dZVP`&dAb;zcX--5gB2~Dl;Q0
z_n!?_hif*JDu2hOF7I~nV)3H`jmvp!x|9B{4V?iM8M2&>R7Y!;tJjFOZAl!Fx)^@f
z3{ZL7wj{ftyd<%@&x~=KeN8o%MW8>a4q}EiRqLO7(5QD!)$+`s1g6aK_i)iSMA~Qv
z^z@uQecGhsY&9JNr?P_vCw!=yg%1WS!Ph8srN9aulV0wI$m6xo&rs=b7$W0I*En?+
zD5!I&m_WrO>L7aC?RKU%05U=Nw!)dcb=>VF?_-=We2OvcCTE@Y6Vw9GfstaKi%=$o
zIFA1gQ~nF4`d6$N?!5)XP2;=9q+lG!-^3yKfE&b-;7HPxYS&?<<#(J*&SZV6eF)R)
z7w90JJe+DbVDOCqtSxCywHtZ7CDm?9^ZR`>*M2I*1j_VSUk?Z|ydtT_8Z8Oa;Y3+w
zqM!tB<P&*CU*&Y+xIQ6O-lX59lS0&hPX!Cb!Q!MCH9%_EKBy_>ngo_>3|E9_@6bzh
z+*r>T4kcwALXPPQ!?|~gmx>u}byC5>ln9oys7k81rW(`dB{f`Ci>dWV9aq(3T0@eP
qB5A-Rikl<vjy%mpn5Sa`3|IZ07{KwIuVw_8rfgMR{;q=4`~Ls|NIew*

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_925133.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_925133.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ab3f99ec8969e4ff067b62ca9aeebf715c9e238d
GIT binary patch
literal 11312
zcmd@)ZERada_{l;@%vj6CE1cJ*)k<tv_34^i4$9PWW|;&M<4#yg<<q4i84jXk59Jj
zEHCsSMaZ<MsWgSDAb{z^0a4B=PB|1PT^w+_pg`ReD7cndGp{bH>$yMtPdQ(4heO-z
z?Bj<hnTmaPX@R!uXgNDOyE8jGJ3F&4f2-4}DJWM>-yc`iQPj^!BUfx$;K|?76m^qg
zDVFw8=QF?bd0K2sCZ*?PG{H%H@=3*c#ia7QlBPWLgfTbG+Ak~h$R^Bd?Ht6)Ho?m`
z!7DbwD>uP2#qpzBR`rhTPF9TbY8AEik1b)<9%`Z_C*#^LtJwsv-2|`mC_J0=jY{k=
zF{}3|i;oq14bZC<A)`mfn&8h2f0p7SMy;&%9r<~Eez$DzQ0EO2%45i{(|DD3ls+a4
z>T^g0`6<6Q;1`&aQ#|~-eS-3E@5v)Qt{$Q6*r02$tG~Ca&vo+X(ZQ~vLDx`M-{8ps
zK?OahI|rag&>ZU<>H?_qbk{3_>d48y<EOeihq`jJoERa3=L!RW6#kw()DVl}!LBl8
zLXv~lep&ic$(<}k$o>pkX#s8dGiYT6v=xY9W!Hdvs1n(NTM&)Pk>Q%0qOO4;r~;XC
zaA*snpih%)L!T}Ohqn3$3V6!a){ujc43(1^^XsX4K6+MKI0{u=gVP$S1}UqMF~|KW
zDXWmSpszqmqzKg%@KxlbTl+<}x2sXj9kNGILfeoXm65s7wu{3Q#nD%(9Hw9%va1^k
zOQW(o**zsI2-PBMP=RWZTx`|(D^P9048=4iU$3#uxPmdoxmt2uL)%eFj1K-1Nl+b}
z1?mqZER{KJs8U?fc7i4N43^9<^4Ni-zvYPfr|4A|VeM!G2UJP0*TAAfI}6rPZ0$SH
zPFDV@BDW6{a9TDNK988t=D|FWw=>5xIMo9u<u}5q0c}CG8#FE2=u>(y=d4rIcjI%9
zt0eSj{pej!@!a+d-S2*eMjFxXZ%89e&)~G{8{_0erJNKsXsA#FYC;atzMZH+)HCrI
zdjKo8kTcUOYQDKZK7HPF@&MZUlx{`8^3;Cn3-=T4LAyU?a+XUM`uN|6M`rKWb824C
zDMtH$Q?R0<{(+St3z0VOC0aK14=wBcL*|wsdJ}cGxtI9*ahv&y4WkhA|I}A()WiDI
z-uje9W={LYQES?3E3k-Sp0*XWeN(4>Q$MyrI=IupV{h<dd!Hfa-fv9K0$)+Uvsf&!
zQEu5apknEZJ3;y)UZ$9j$@zg$djYTC#t&?e0j>7{?WnEL*C2+^XB|cJ3>67R$;slZ
z&qEpN@JkRA>Oc(Y5J&w9a9E33i+UK8k3d8}u@CLbj4f`tVl=RSQ_I=6-Un^4nHLIV
zDQ4R*p#7koY!nuHaZ`W3k;^(AhYl2QDYkP5(2F9UY|KbgSK*&S-NzBe4qA}8XS~73
zL~D-;W(@wItR95aLpJFSUKHd3e%!-l@ni^R0D{NAf#OgL65c1Mr?|iv=bm(VSwZFt
zxLHAd1%`M8g`0Ex$2>q35R{|P!?(5w@*p38K6(bAarczR@sc1td1^?Y&kE8bCkF-T
z;ITeIedJU&w;2@l>ysQo5%gU0dHjOHKkjj}K|#$0csF;|#d;?NRi@9y1q9=f&LgjO
zxq7<JWoHtML7wxn9#>$RcfIN6N5%zH0VX?ZAu7wjTtG!w5=QzgZYDdEA>Yo<vxdmd
zlH)$(%Fe;TMMrVuWOGVV5qsrSq#`-LAfNKGE?5!y$w<o(kPH?KYfE;GyM3dAe8x4!
zbFf$9k17ZX;bA*w1SN>$BHGe=d_j*Z*V2znbDYP|69nm%aFc?Zn{<r?1toVeGpBMS
z5EQ3V2EBd}&=P}i5j0=~DFA|$Kr)|al!x)&v2k8dibOt6kj(6Xzh*%O`raef&A{iP
zASH4!A{BvTP&EruAQJTM5q{e3%PB}ujRbr_7w`7^1eHiHf()r$L2g9IK$jsY&OmIC
z555GttNwk;uTMFz1h|XADffuSIqn|0=;p@*{@v~|P?r<9I(g6JloMLc>?ZJF<iXJZ
zH`z3G)dhGLSQ#JigPy?F_P6Y9Zf%7gL6;@J=;8bxA2$SYk{u8Bg9U`CU+klFh8riM
zC*qfuwKd_cheq>F-K;LrylmVaKK9UHx)F+o5;e<)y6~&%lIld~Y#@B{ry6V8Xo?+6
z=&`j48=Dr&k|%L<4>tBh<Y}WN=1pyD!6hx&*s^dob*LZj?Z?LcsQi(&<YxD5cl`Lg
z9apw2Sz9Bjhi2=|`q}z;L*gnf-?Pw+%iEUBdy^_`?u;liJPg?C#75`B&ZG;s^kQRg
zo<}P#X~o9Yh4ED90B#?^#sTQE*u%XKZKXHQ&Yq2X=SvrME!hr+`&N|N$d&7F$D8ge
zccvNrib@|VjaGfsa%=zG{zU)0a;ahuR_zHN{!&w$HkxCvV`FVpzG5_gFmUtC?3wuM
z^Ip8AW68D;8}~)z5B0_y-l#WD$2*qvwc+l6(Uhdkwz%!XONqMpmAS3+PHf+w>|T83
zi<-r5e4rQGd$IWhtmnCi%C>yyPFUk(b9zuyS<AweB>#DT@(S+gzURap=Wyxyh?Yn&
z79ER?C3=(6W&ME%`h!@1@UJ9)t^SF6N#7HZK9gX@V2w*YY>u<>jyX*tfXntKm5Z{^
z-HS@R@6}Y#1-$P9F1vsY!x359Xp5Ua?2PmA?zxJ@+t}WotY57Af?ll0FC4$;!Y>S`
z-k8Gsr?7nr8!wS9u)Xh&TVrFhFDABPi*unn`O4=t$!^^C%HrF&?KC!@i6|d|)t!l+
zi47%67o^L&wg<Wntn2uZ<j3l}>LuNgh~#0G;M8UW#0V`VvAW2Sw80cR5}k=}iwEa+
zV#78N`6<jJMty^cGHI<THt-=GZ;LBuFQjVQu&u2?!KvfJxMLXGhOzcrX{|ABD*HF3
zOr`#Xno?;t8C{^Ydk68p^QqUTaK{w3O=0b&%oM*Ar_fTcW#^*jVwd7Iu(yp%x*ZWo
z5rY`WY{K0O_d4-QC$PN_n@<+CoJ|NfS`U}3`<zbJfA-emdE9Xlm%jFm7?0i(<36m3
z55?<e-%7Y}Y1=}cPpaz_?l^@@PhtJ(h%{|2dH+(pE_P+MC((qhdlm+gvcGgEm7iT$
zd;#x0fh~OzCb!dr@tOJHvaa=kt{v;z|D5}aYoA?P(jAUSirA_-V^Vi37BAhcO7#xo
zeZ#nH7#qG7k>#cvN-)JOYt3-TDH)HB$GCXicWH4g{j+b+*Wl8|`GJMnPtGPK$-%n}
z-hF6s+hXu1JMRso22TCWS$z1^5?R~Vm{fr_&ftzS*meeM&!)A8w8<`7)T)+Z%pY`$
z-th2j&wXXpLwotH(z()vd9EU=U$NIl^l7Cj)^}gIEp6TUJ@d!*+xGe9`LU&%c5H2r
zsM5BraJFpDg~LC*l&o90@>$Pf6K;DATl=BUQWig)^+i44iz@dgk1euabS{qJ1AVD}
zH$LFTm2PZ#6I5@p-Rzj{i0_+sEL++l%(|heh8J<=i%IW2*%$76O8oL`sX-5Z*@G)R
z*fI)ZGbbumMn?Yw)3&OknA#_Bvrt?)sSc9r5L6Jeh?l)9FghCa@DMnSOlR+ZfG6EE
zxnMx!_46Li=W$>5u!7R-pYp*~NG@al#Ppb(hq#XO@Y9@sgaj+OQVM|hcKijzy6;-v
zwZ3b+Ng)|aP17M2QU%S3n#j=>{0;;4dzSZX?^#1?|867?E004ClY0yQ4!y}J;1tr3
zF-TTyRyOl)FD37>?^%%iJsYBn(G5e$8`6e!NC)o+5RQfPNRQMPL2p6HaSFK8#a_OV
zq!@NYG9w|m7iR>Svr&D)LMhT0l#^L$Dmym`05_D}%7Mq%^oArMnkPY{Sdf$_k%U+#
zV8t6tF2~?%k+hf=qLxuHYs{`$`n8;;el?OtZ6td_+5$}}ISHctRz7bN#oj&9+6%iu
z)HLXcJAstJ9<Y#VWMJh8zKrDFd?!evv7sPpJx%T<m8Sd-7@vJfCUazGl9HTqlbJT5
zUYnCuuu7I;Rjm3W*@S6>DA43BIoyOb2d(`gU2Y~;mD_`m5h*wctMM}+pOWYgT3SEN
zYC@)nC1Q=(My0Io9VTSv$%zsRGLtnR1AO72;XO=7^dGf?{<KjW%aE@lpgj{ZOcZ|0
z$&O|7-)Mk`WD^>FPR>pG4bSK|=KF~p)N{yDoMugq;{9uK6z|W=F=|1^-~N0c6;i-k
zf{8VKr1)bvrN}TyIm~_6oNK<Z+8eCqJeQ`uoQJK3B-dZP=0mF?4ZaNdB`c=ZoDOz?
zBN=(q<7%iMA0kzlR1{>}4jK14z?_RzZ;;9j)noEb@R%Itk^DObG>9i4miFWTRDUXc
z)|a`c6ix|Ej3H-rQ93FamBMNyePVJ6$-N?zr3kVS)_d6@6J#g4hB^hgm}zpgFqYc}
zRgef&9S(=NK>!5ifX_YoChLCr+E(|}l<z9!*(CLDI^YY8xP8Hw0m$_K85vsv)vv<T
zM<ur^AYeT`KeXWZ#I<C9DLK73ipx%Lr=b7wf51D!<Nt(;Bj?MZ`1-8aq2tJ`f}G{A
zPI=%43;22O*mPhTZZI#TqLBFd;jWUy69c68iXo3b7~ljoWNiFZm(P0<x<&$!rU}w9
z56^kXR0h9ihIdT`u6Q`O8C@-6W(JQ8;#+~EWWy!OorW>o8B(1k)j3j~C)EY01eG`F
zy6lF#(=RA<PX$^YlmrQ@c=>YM37ICF3zFQOt0Nc%<iAtXd}j5;hYPYXc&y;Y0W8=K
z^1ZuAa(n2|q09zp3%7+sKz$wlg2YGsI!vvWP^OARUCOv4eC$gI+Z_!*DE*`qGdm*k
z$mQ7OxhpFMd&;mq#hgvmpIw65usyxg@dM>2O3ZAJXk(-Cv9z)Lfw3AJs}m;3%@S^G
ztcOg)R1s0EY^lC=ZtfhGm4}Z--b$M)<CkWu!pGAZTfFqXraC37PHC#s8vTv^(fx7h
zE!CWAS+gtA|M8jIXYOlurDVIXSf@0*(gyR5Z%4nqWT;A5KHhqJ>rzc~#1cO82m-OD
z?`{8h*X>=)N@v=z<$<9V8*1m}iJAKbXNqyA49>K@{(-#(+gq0GZ4kd1wj>nTuw&kF
z-_V+3T2qGBpPKE_{*R^~R5@{#bAeu}Y6%}D5nlIwWyS68FAZgBtvS{jSI=oumRhW>
zd!TK=+6D;u1{WGWYfSBa2{*p{_u7LiTJ!tOkX@C}RirF+SiAj!wh?O^=R3de{-J5%
z_-8$-rh|Cbp=E97ip3UhNgSCU!TOd5`gW{uf5_+`Fk3ORHU8ET(>Oo)L@F^T!rfmf
zC~H;JJ>QU&+;4c{cK;$B?*3QJiSR3rWTsdhmX$)joMu#MMkD@bPBSGU29N-o0FKp0
zbzfFHB8nTjs4nJSX3FL-0a|Rmxy0BvgTLI~6ro986*K*jW}y?9hz;`}YKw!b_2qKK
z>Q2g3_OPaLzVAm}KkmKTyHs;5ZLUaLt4M7uebP#3+9|C$oH^(tV2AlaJe(LT{tD`w
zl$Q#D!y=(zh=$Nc8j`V+ki6hw6U=vG5wAii1enrKWp}cnQb_TPF%l$a<>WAkqlg4h
zLdxH16vJn^!u6{_N|gVoM#9~RVh{Eds~`@XRSpB^kXl?P1A$!L)lU$;Y$#(CtNJc2
z%A3_fNW-c_+UL*^1Zr9R5HAkpnflTGPWmZ6>M8vo4brljPqlZly7?MC=|nyKueS(T
zt^Q6<_nTXV;s4BPjnA=K6Im^y#Lx<&AQB;E0-!euB*sG|GJ?Qlnsvhm3I*%A>>crl
zgo1|m1bNqp8=kV89a1r7;_~AjlLHM?l5_HyCDlEsGDL3xGz25o-`s`swZNAR@eVKG
z(F!<nxfjy4Ipkb`;N<Y`%lgGjHWQR6crn~?=->_A6P)((!OZo&4X87B_!R=xkqQF;
zg4CS5Mw&CE$_p4I0pz;7K6AyJL=~*N=idX$2k;mCcW@<PYDI4hcf-@hj#ez&7Ve6)
z$J*l^D<(_$_#;MlLlf1+y5jAL_W6!v`!aJl-1$gtxX~DGgzJ4`zH=_HFuJUM39j4X
zSe+dn&IS{;@NgDBy0WGA*6`eLxI1zJ?tNgn-HBy2;ojJec>Ri27w&pwD!ExXTX}!$
zo@B|g=}`Fiipff<0$F+!JLc<?JC>QwHAyBC4GZ*bCt%f`Ym#ih<|J8YxL2NXdzN*h
zMFje9)xm;wS=atQ&2*lJXWFNjGL+U5?h`|5h@r^|=<7Rr^r*um+G;k^&4m0-KKLj%
z4c{{aCI@lk|N4ZK;OdmuKgN+`#1Xe8NGH6!`0x|tJu_3B7#ed^Vh_9#39>f>0bk|-
z5EF#3Ry2FpSir}ALW#oU@`lL(JMHtl%zXfK<h~2`LcJ=bY5HfB_8%$TKT(zcOl@0L
zP!i_d^6TZRl4+XW3o!<~3=T(!R~=%rfvT#x<(u=ZHj2$%l+k<xMbYYRvDrkyM+`8w
zRj1h8lk063n=RR?e%?x&Po$JYn`JU1rS>$Z9lO)jb?LG#X{$Y5Qt_4L7)_hgO6|Mo
zI$D*I27IfyQ5mgVm6HYt3de&qm12{jY~}IV`1CC_hf?K@*t%;~C3dJOlRa*`RXJCQ
zjXPE~B2G(imRa4ZPHgHabIGbf1dWv5ylN6bGi9`{ic+jvDTU_U;p@XsY^3K2E1_uJ
X&zT{bwtO`up$yea`kLz+QQQ9oZ5sKl

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_939610.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_939610.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5baff8c3a07a48a2f162e08115bc7922398faa16
GIT binary patch
literal 11631
zcmdryTToj`cK7Nn^u7`g0S56h7H@&gV;Dae8#A^6j}7=WtYukOfIvvhmGCQ9Gn%d0
z8flUWut~~dYpN_yrD`<msakfw$o_=gN>!XmDy2r+pt<o@n5=*N$E-Kmt*s=J(^nD_
zSlIK*rjl#ax6e7<r%#_gefspd{(F_GfPg1L|8VLTH3ac13}l|dbmi$kk_2&=pb46E
z5m!=g@(Rhrf?44e5s7gEmv~lkMKUYBA|(k2IjzmG$-Zf!Lo`ig;Y^Jd?SU8XftT!o
zm+pa=<;PDbY56;%2Wc^`6v&C}Ke~u6a1hf)85y&0TCoRSxd&e5kUI9DO$dy@m{vO^
z`TO!z4N#SQP3ut6I`~oW)93FoVW17~h_9%(SF7+H;)+H<I5gYy)ZQk|#ZT~rhRp&_
zc6QF^^tf#<PCVv@3MYMK@a*w3)-znmsS)c)|GB~bVe8qGCrA26N35g$!y{+Ub8?_u
z=sOP-PH}2@v>$4H7y3_d^5bWRPmc}sjrM1_4B4^ZnMV#4A^e`MgVo(7d|+3pXIhY{
zW#2UUAWiohU(iyp-LmurErr`H%h*D1B}=lUtmclGAnw4xY#FP|)cxfw0W?Jh2AV2U
z_wQpR{tEZ`oUue%xid9Z#Fk>N+ap$fx%RXmw-;M^2Xy7H07)xZZAOA;B&}qXIka3!
zjcf^~uoW}o1i_HE2{w(%kw%h{Is2wbw&X#2Rj@pM6Ket<fbmzc2CoDlF^{iym$9ZC
zUima3-l>UHKen2c^ZaU987;hnIoGm9ivn+Z4!8W0=~L}9^7-r7I<}VQwVy3#O<?=P
z_XISN+FdzXtHTsbOH-(f&iwT`W9FMdJzKSl>;9d*?trb*qL0N7uzkZbjct9`<J*R(
zd9S+-@|A5nIq;R{P>Z$6W@lo4!A#75z?n3#)w{G-%iH3vb>Qux@da`V*hYS)HM=<G
zTL;OvvJOozkVyCyB>HwNqnRycglw~d@Hevu*d|_=4Qw-S#n?-<0G5Z?h7^_8Y-`Ru
zlsjz>L+rk1c1+fn>{=;So!K#L%a^gEkENOYK<0Y;Zz@H~=CiW2epOj+=Ss7OkJ<Jv
zZEPDWOM92Lw5PJLmbAxd2Wnf&X9Ep*L76^J0E<_p<GK5}ZKof}*~tfU)-9h;I{0N~
z{Vn;VL(iQ<$DVWOe8C(#pP9ohUf8duwEr#5q-zhKWZ5}~Z{(BOck#k!!~d>N$|upc
z?~@LteNtDBPwHk5rF~LYj!)`&uGiVUC$@LG|D_yzQs?nyyLzT~Bsp^ctf-sq$#^4w
zZw{Y)-smN^_ZiE~bJFDcx7&nSHq79V=?RWopWxbLMnnj-MYA^V3@7&ZrW{Nfzjf41
zGI$zh87J_$xPm#xGs)OytxlQ~xjZ(Slh_!Wd(r_^4=0@fl&_<m6MKCg#=(hi0w;(0
zWlnf@Y?LD}al+$gM>yfgsbQ|*_*go0AK}zHV|Y&Db-dwnxH*Y?%3-6uTmj?p*_hi_
z+BwU~Q#32%;k3v5j=$P(J=1?V&56@`eT<WKSUvMT>vfyYKE>&BFlny2sPq6-PAfbl
z9!Q<W-AZ%PY{O|jSwxykX7pRuG!F*6EWu#s%}8+}!v&7I7#v)2;yEX6g&E;jN?IAN
z;?A4|59@VsveZ;?Ej@83r~tI#gB7^N37A<<%FJ3*3kMZD))s!HP@1gftW!4E1T>z>
zR`_00&%}h+dW+!%@Jj<u0Gw$6I123^FDLan-PRj$2@`r4D<|+k8)k-6r1|mEC;`Ac
zvm<zK+U7D$+kk0X2Cx8NNzKl21D0Bf=joy86bg%!LcxIEmqA&kZ}9wnto5dcneooq
z?2gtcn|;RSoAS7uZIceSuhq-gTYZk%xmJK$)7tWZMSCYa%xuftZ7bldU{yYk+iLfK
zZS{2YbXwYg!l}~DXB>>%;bP8$n0T4J5?Jv7@taaYrCAsX4TY=X%JM+}BQ14TwWJE$
z;#yPS)FX{<!5{L6&&4&Bfmc6M7?L__@p7aB6}BQ>>&k&uD{3D^y1}3%sV@o}V|9m+
z@etA<T9w6)kD~5Tq#q5+l6qrE_SjH#cVKBCd^&1G<?V4pM^OGqUwF4`sVn?aRF29l
zD}AW!P+Z@+YDD^1pc6k(B`Rz~y0(?>RS)VILb{>tfjW_~6G7{e*oiUJGlukILD{BM
z8NB)STj2xi((0s4y(w2O7KbX|Z@<^G+!Hw$mB!23ki0GMN>Z&|><-Na20l~NB(>Dy
zRiv#6i8r;>pP#>bap_|CYSfALb;S$2k+wT1PU>K0NLL*=y;)?6^euS;Xa7}E^oTOt
zH7}XNec_wYs%17#H3g+f${0S2sK%gllPU?f|G*Y8geRAKqm`(v8&Tb>U26wF(XDl%
z-ZQb`tEl%XqOJy|k3jtwLl+k>M!J4ziPF(7RMW9Cxk~@MZ*>xNo<ub#AKDYD^Bbx$
zq#8?HxU_NM8oF>TuCfIM`9~R8JMl@?+5mca@ZnqN<*Tvl4C-YN#eBn|ihn?c4~C^n
zEs>*$YG1jyI{I_V>P2*@A5s0lTCH7}3{5WD!vjmR(T1O#TNSNbL=A`6qz^@(*d9vJ
zvDZ+;Yq3kOC)DE`YAaG(6W6Y9T$@JMrsL|Fpb)FGeyKiO6Ok@AN2h<PTRpK_j9U8E
z1|FVRKR@zt0G${`Eu*n<Yl6DALD>;yPtX$^v>VaxIOPdSKLy(?u2`H34s62ec7&$F
z6zIMjsq2Emq)M|`9~uw8645Weid3~h!DCs$f-EFkED68zgEu0z;hW26Vhz2hycg+u
zS0~r#Px{s-(UIZUIXgOHM>=~_X9#zFV2RL?E>zYSom`=R+P5-^T8^NyBmX8O<;Te9
zam02}`vDoQM^tshil~FJ?$bzj`g0*kogp`M`f&XRRguw1Jt}R8UR)XdsRdNmd>EA;
z{&%rJe)Kmo0+f3>bb0ZOaD7}=9TX%f!{VK#Rxr4tl5pSBWKfYT#*B*(29-dAncJ3&
zB9>)kltjg5M46*~h-%);D%(@G_E){JQ<qWiWkg;6hL-Yentmy&8Hv4qHKDR@sIDW`
z^@QEAVV_0z*|^G$H^45de0|OE^EcLt(V<g_I`tf@R6ZPC9~pgk5gi*t4P&wITuZ2J
z8)_P<>4al)!{I>=Ph36s9J3sZof})fcqw-75;}1iwOo$b=mh21pr#Ntm2l2%IK9Z}
zjZ?lIhN&+M3zxdX*CSoaE~IY&CkG38bEzppMeO%WV4Yxz^kw1eALt?{BE`!yv8KbQ
z;xN)5UK6A|$Ile8;cMvFHKe~5l;JINVCg`(JxqVl$NL%G^3kXbm9?&vtainz<1qhi
zGw+HP|3tTPVx<_Fdsed^0+|Q@NjCHpjst=tZ!t&kTL>p8gcW>jW5q|D!w09eecqZv
zL4DSCD-Cc8r`zXXTn^g}2hB;H?l~8nUYy+SaZk@r+I$X9!Z>{MjN6`@#VLVd`0OPM
zN6@>5cMIPwx=XMknwTg3a#rr8SYjHBwCfp%yW4w)_ln*t^cT3BS#dym8ZzmbZ0vW*
zJ$k`Neg*Esir*_@Mfo_>sqC>3-!k7buw=eAtRNp2$HQL1X#z&i+iM(W<CK0CtD;5t
zHtScjYPMjebi0=_ROCx%x*)O^`nK<<(>Ng8^<-|+Oa&{<mlw<EVp_4QBY+v2n`DLf
zPKL9XX~~J{e33hu4{I0P65u&Ag`kf-y?A|SU|qzS@xDuv#7-DArP*6P;QJh^U*IRd
zhQ2yMU(XIngbWk>jmC>DNs^TqTI-%|o}oWiKA~IT+wRL|v*bcn$_QA(ZSdh}n}70s
z!C|vmZVfB-zQ$V%*bs9D_JxVn&{7t@NM!P^)0r<z8J6&7iJfgS*-(;jo1uR?ql<Z@
zISKKHg*`a!(K^c$c*w9dGXh%X)&L|=LvptaAl}k}R^TRSg<s1`pswU8nRY6mDE+#i
zAy^nJnh?_JcVvEwm4k(gzU~?TN5Zeq*-3f6Jx%9+O-XAH{0H_-yPnKk4-t@gE6WgB
z3Nv6e@NI)+1+1PGhKfRkuv)O6=>nXChxO92n(2L+9@#g&{gnkI736ON8W7MLpldVZ
zKc}4z+G(EOj@E6{v0TKLkSlMSJaX;bZl_#%+hygN(6idFzOz|5D`91<j;7w1{3&>v
zRK6(VCrMbL5u%2$5MJ`8fFv%%8m4f!gqMk%q**_Fr+#SO>oY;V;09dDP1&Q(bkpgZ
zGG&iFJ|V$im&d4}xKrNea+!P%x7WjXO|zJXcgn^%OtkOzoa2sV=lPjxaNS|DG@nR!
zGI=IUkUf}$LHJvB%M%l@eR2#J0bGEj#1niRJdr_R$ElFagI$Ooeoyh8^Dl%i`T!Ub
zf>R)|!DbW_B13`+;Rs<C4D*+K$f`(Ew?|H7r=2&<B2F~aKibEMdD)ms=*v_<;l%=(
z0)YTC3>8lHvdcDmowgmhQ(>E%bKQn~2Tp;syzKJW;Yxf2Dk=K+abLW9eitC#FS=K@
zTo$<y9bGYhWQ`jSug<ScppqfxHK0HFuP?s%;>myF0)AhZCC|@Jm^F~ZnX=6}xB@4{
zEs%0>L;N9zv<_rdB%}QDa6(vBPUM99GbiSk2f`VT+vl8|_sm1u074k90Pfbl+g6uz
z2722)aG?f8%+oebLOX6a?GFCh3>hCjabqrK&Vi_WxWt^twGmv5;$jRJ7jSVA7nh*m
z<W4W7Bp^zH1VScnqx6BMT<I{1slshLabdz8B#>s9oA;%r4lxPAi6$Xq#Hq99Xr1#h
zj05+`u1zt3`4SMvjvY%amoj&em^Y!h9e&<J5P<wXKx`Eey0S=ZOuIjD3SXzp4L>UW
zs2Iui2gSh~i#L{UZfcA%O<hd(TCD!HIFy>Y<N@=Kq#sF<tS+croCr@Qb!Biv*OqQ*
zO-O5s=-^@<u_0}JP`s&7FZ6_Z!oqv<W%;_IDkiFmDXNlHwI3Sq8<D6Ya4Ps#QfG=-
zkghgxI;kiO7q2T!F_9^zFeMd+u;fu)>x%ks#DA;&nKDr~v?U~JEF0AaQT4%ib>~KP
zFRJcMR3F}~KlHg+VC?!eAy9U05dtwTpe7-ds)epl*P{KdbIF-dG(|c-?782wu4syh
z24gLQanT^ksmByen;L52&Cr{W_lW2}thiqhud)R7f#Z*)y2X~itoyL(ep5o)n$+yu
z(9|GJO;jAYwXSK6$>^Acjzg(wO&aSrjE%_H7&kU=7`u_NJ8pa_q<(BH4_}QNn}X`k
zC}Zf{`|}%>t*Ekfg^X9W2Tp#fpcd~$2G)xkKh=~ZmDFNKxL{ck)7Kzn?S`@eDI21e
z=*UXLj~iofL2Nwo3+2&GCG~yF_if?Q<+7N*7AfmCl#NK)814I^4I=*2KRy#{If|N&
zC6s-ehKfk_x}i37J-MS+vu>yhjYK=P#DrM+xr8uOhHTM>Rl$10OZU&Mk%56<Dux0l
zKI=TXc;)WZrK|D6x(&$66t*P_+t)?|!;j_ah0;*zhP)KXOT(6X-OJs-kk>wv6)w_9
zRtA$uDpg6PhW{%~D&Y?>@K=;n7UC(|Lqng|HV03pl28d{`HBV57`iWCu8uNsW&0j*
zxH_)f_i5#UVBf;4p;s5r{mGfA4F<!&a?jHFD3F`?fEUmI@!(c{sk~t808v<;V_WgM
zp=42IvZMx=hO(y}(B`*7qM&Z8n^01Lq2Kmo>%aHnli=?Pk5hvd;Xhc!gS}F`pSB<D
zw{dL$^mkC+C7gsG+%Uey_(_Okg?<q&@QZWu=Qz>5>*1pdA>56GAB!HOBS*jF1$_jp
zm=@z0gztqVfX6TWTD@f1coj}sDJ$E~{KHKx-yH>x8VNp@Xz4hN>@VQwDTAne`v9B9
zdfD|%614mSl9xBF1;2tW@GHNBh6>n>e$scR7wSj(we*v}*E9NI6|9n0e5`zszQ5rc
z?H+nk@p}3{ZxJwC^@EJ=_nxih|IKW*Ut+d8JX@B45Q`c%i};X{`3|5MD=x-y@j5Q%
zp@45!H*g($6HeiCczsqod{wbp%tGcWCT#b4f;Tg;!+Ycjjf;nv&Nsr`N1?~gFeH~>
zI}F4JBspVr01ihgx$O>`#f%H%#PEfIcJqM(gYVA}B=QlJSp{Ec9Nu}C&zp)tDu9>@
zL~i4n2^YIUq(8zqoOs9z$h*%S0ZS@O(eWzS5v#lh9se4B-v0nM5+ESQ8yMJ968k%l
zs5;Oe>|E>&cR?mKaQd-KwV((o7W>1Uk<Mt>YG*?BN}%s?fo7pG)CeKUbhK~Tvoet=
zI2<^>2UcYaSA|C+HF4Gcz{$;hHTTAs#{&bwAtWk=A?sR^s46hHxIbLKsZ<5}AM1+l
zmM@jBSG27bC3MH&D}l~{iyT=7Bm1NEtNRnOzN{qEk%krWek))L`m&Pj!e%5{X?R!~
zvpEu~i97=RkLqB>kWh90p$Con5~_pG3@Rg(`oJ)MNq}1c-T}kICr_R<>v&sbt^<P8
zq%JWnF8J0v4`0qWS*FI||3(Y;dwb65o@DSgVzA5NgwswRpRe@#9Jl5eKF()mF`2<+
z(RGi<mD&K<1mQy>Z}!$nkBk0@;DyQDgl0YTyvuQf`7>yT&pPjUD7S<pN&bpZ{xhNa
zB~kt_MD->qeYf=O(k;Oyk{l+t3UF?JJT$(gNWn^?vg)2|*|nug!D>QFEwCYWOOt}N
z1Y~`|+_rQnn99)gDcF$a_v=C)ekz3UH#63o0;0{5G&d(rwaJowNrN$2RQ9?4EJ;#H
zsq$U+ZFWnD0r+gTP#!AZ5@P@&XV^Lzl=7gAC@c-vgy-+E%WSN)5gD4c<UFB(&>6#p
z_sZdui+2B(g2yQ_PQRquQt_agpo+FMd{s-RsVyB}g&7#Ocqz6FghcV~_}k-83o+&C
aoPZ!zzm|=Xr2ccLYfN!<)!PbQ=l>0ugH`JQ

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_946209.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_946209.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..475ac51f1e218c7a9f929e202fbb6b34f8edb8c5
GIT binary patch
literal 8724
zcmeG=TTB~SmQ{Y1A7x`6<`D>x1c*t}#Cbq>Hl#xXAt4EQk)*>i>vmiP*nsVniw-ci
zW-6^7HSUoXql|=mXQX!b7u|_8`DFfRX{15DKQ3T)ytNq#?c|3)rn6eDR{OE%mR+_(
zY)JQNR=cY$xo(|v?z!ild+zZ)=bpc(X)^&&mH748ANLW&pD?06bOw0IkOZ+vFa$$R
z5JTxNIYcVBW>Pz(BMFuaD00-H=`W*Ubph+EG>kFYB6M95y1oeAP?$bqW{e-}o@6E-
zGMWez!IUr*O9V;^Xk#iuHy5E>iqNgBiJ=SkjaV7m$NC|2)`s?vi6M)IU@ciKtuv&{
zv4zzekd5zMxz>Hzb5#WfWXq+2!QPu!db{rQ_Q<C0YXkka`?>~uWqr@!z3aWc`n+Ws
z0oKC%@>75o2_7~t{RA{Bl>0K|lT5!*zXzu#%h|98r#8#ki0V=4_%K04^r!)qVTdDV
zz>$Ols9ZRRbdTJ5vUEAUR0!!%{VX6^i3j%J*YDsz7&N1Dh8*vKnYDP%phlUw5!KA<
z2?8BdbwU|Ro_vF<MefUxsOCw=j#w|@(4PGJRDPie9fJ8_w9t$+=m0td?m+xZ!w@5y
zYLJEHAv4xWftqkH?oan3i`pZ!AZ?M+R+R_s98Ie|!r?rP3t7AcHNUDCqkF1<f;|cz
z!L`Te!@G`dMI?BHLDdC(!l=T+5kx?rO~s+luEN4mR2w5XH={*Om?j)UM|N5dQ7Sh&
zw!?BJwMTesk8v7o`J$uS_E`H{yRAK7QVjS?gZ5|r`uHBQ+x`o(-N+@JKy?ufY6b6a
zwGhHdbR3<)RzYrbQn3yk-@+-NDi~0eUd6*t=V?~pkVi*f+ldm@-mmS1BinOo=X#zR
zR39Vr&#do1W1&6F&3k&cd1naJB($R@RH>}IV^?o!FX|_|ds#=(asTgM-*>ln?m=#!
z|5E<7bN6yH?%`Q3;{b;P#}<yaTNoNu&jOc5)=hdN<FY=)kFlJK<SfwTGRPW!LN<rF
z&?x7f^!OQBHxcqOvcb!FgQG0;hGcz&4{@yPZCQKm_Ml9@FKfH6-IBGpE)B@$?%SSQ
zy*IA(4&0KBDqxH7oS$Jm)1LcY-Zv)GS$vEI(dH~VnFj}DYliL%MLd(QV7b1CKbY5t
zv7lU%85f%3GZWhLD9V(oXv~rmjj^C?R+RKa{Ije~VQx=wYEm{v*aw~oHYk%9WwJ-s
zUcA&JQyH;iS%~3q$l`E><KUnpI2_G6oE*ufu%F4OLt#+SLyw_J*@T5hcrVAx7T*--
zQRgy*Mn>@3)8C+Mz#9fQg-sIXxd==QOI9E)&}1#3vKiYs!eX*)O&cMDrRBh8PUFtw
znXg;cOdp5WEt5W(jL4c9z-HXCQJI}Nt^)4J+pv&^ANc(H?Y4&@Zafn9`q;KHuW#JT
zkA;HAyrXQ8Z;NogHlCdfw*l71g}@Rs9v&PnG7{n@-wMxofDQyd9}0SWA#kO4PPLyn
z{tooWbcTJL<$~-4*9R(Mdq@1R2_o??JtW~MTcj80xOcszLA><b?wA*%Lj1<My<WWd
z+-jS@8oe5CT({PWy_?38SpS-Ff8y}c*xG^i6lL2iafp{vrPbo)l+lqi);%wGF7_?-
z#rv14rP>qg<tOJ%&z)6^qYI<)(Iu0#-@WcU5w)aDB{BD>`%=!jsAbbxH)q*2TIU`<
z`f2>gnz0E>rAuRXqn=-JpU-?Yv*cLnTdzMQ(Wk@<&uRPoz39EzgLun2eL%dBqRV3A
z65S|X*tD0%{E6nT9ZNk+m0z?;PWQ86siI4=cdcAlJ+*e@=4!_`*OGVcOFj1``+f0Z
z>U;9PFk9zaqAjt*3Fp`3(y1lm7xl~94f9#C`+3oxO-E_$UShvg(Iz?Co*iEPk#wS8
za`cP+sWNB0I@xqusy;21onEF^-j&|IDV5z6ul%#IGzFvXEY!>yQjUG`kuPs7=@NH8
z3q3PS`_D*@Gs|~YdcJL3>HCdmbyn)UCpqpFV;os|@SDKup|$HbR$HXbo5|ZAsna7l
zJadK@V8y%9yRkbtdo7o3(4Bvv&r9_Am5Oz`Z%%_vy(iPA)jmi5V`W3MI}u4Rb7YFP
z#~Pz|V)x_jg^{RdPV*Y!1!bP6qExIlVfgaF(xJq|FYM2bN)6{E$GH{fs_t9ws_~op
z<SmcXg>_AOeaS$0?E#nMr;`t+rNGSZsoCedh-hAQf780ktPS2?9hJK7B=50O7b`i~
z<fuOx{&4N#baM75$%j9Y!ax02f-rSyHcPAKjH%M9_{oK%bH>er7QeeP_^o^8uGD!o
zd3{Lg9FiPE#cW=X^?$0lD_6_EeXv?7b=^n~ejs&yAUQrr-e;2I57xLya%v{Y%}C?3
zzo&k@o4wyi#y?O$ehDWIA(PWw2YfkvOv+~86h6lxWJF~1q<1=l$Oew(r?{XGhX?hk
z1wgqyx5A;dNFXARy+5lga2w5laIZWJ=bNUV_=p6~%)KzjM-amxMbHZd!6;COVl=Z5
zg&1w#C~|N4Tp7~r&6U=I(FrDa&7cj;yz>z($iioDwE=2pKS5y4I0v82!wT^T)?nK!
zatf4qUXxRR2jp0IyQ%}DSMNd}kvt9?%2TLdgL2gXTCpj<QQKg}W$LKhm&w&4>_s>X
z>bycp5sqBt!%>98n3YkA$bx$0WRw-*$jK;&{VueYoQ#Sh961?IL>H8ivqxnSj+{NJ
zig4ugs4l{h)1!u=gnh^+)bbVTt^}Mal=~t*V^HfPdvF@wnA3=|wU-gCP{-pUi}Ij4
z3?dpT4kT1!v<!jls02AsDJnzdr~)}rC8|Qzs0Qhg0U4p6LN<JF8>vD2P%SbcGqN(K
zU+MprBtgzC!et)V!hbjp|8tZ)|H7=}b}%v(4u?3NWf~ZMCd_iU2C#*Xm#qe9T>7Fp
zs*9GjjDHgH`!R2rmG#PSSr5rRB<;o#xCij=b`Do)GuX)!viXj8Vv6nMxDY3sA%o**
zJQMzLRyL$_W7&|-+GL%N@qegfXRiI+B@mH2D!G1)UdBxmZkln^f}0!A$QFN)XSoU1
z`ytE7CSNERm>Ts0<reO=W|G3Rs#?f)xmG+9o0_Y^4HTFO4j-^w9d7pH23Ib*2HZ5_
z<^XOE;^q);vMIc*8-;sI1P|Fg>E$i}i){6V!xJ-}bUw;?fiwYc#0V#aNNn2(D?NWY
zdiv)bG4H2mle)^evnf~WuPeW*lyuEve~gN^Bu=I*wwNQD$6>L}cSJjW{!X0y^jzHc
z`RHe(zw|G;|1Ox+9Zgz}rb;UzGcBnQFKvSGzG$D=n=)E|p~v~|8f2@L)r+$Wvr%ix
zWcx+a;<1HeYo_`v@rA7_S$%Zfb}UI9dttW!!CWJmYvS&8bDh||X{JGs!(w-;!nyeV
z!uxUW<G&UMQsotk7Z)zZZ#=#%UWGhvv1*|z-uQSQWPGn6WzNMj3uj<Vr+5W&!8bxG
zYp|+`#>YZZSDtcKF9sF@3CH6}@mg^So3;|MFJ*Ixeb23>^OvKS<K{%yy0!VK;n$Y0
zEYB`3d)E)2|84W{j(l@ubu@YRZ`R-QBrP9^Juh^Q*da+*nW8Ky%A~Xal%^<aigKo?
z3IztVJnvVPqJTe5fv%DiWmouNApBsUb^COK-mu+HII2=5m8tUjRO!Byt>)#snED<`
zSnXmzcM%-I2XFSl(GdIF%YTD*k?<1&)Tx#DO$r)8E9e-FpwFv?6^Qof(*)@l?Ni;8
zOjaQn_86mqvrj(@(v(qH19$}E4;n@B*<1#nTZmF?YJv%w0@=u)o&&dtU<_yB%NU1Y
zX2GnilM=|h*|A-AJfj3-`jS-i%~(OOFlNE}1{N|y?K*9rOn$PbeXKvoK7~iUW*=mM
zbKLUO`XpnUUF<|FcKToM5wKd@6V>*`y~6%~X0;`6uv!OREg~R}mkzjeN)X=?fy50!
zvvnRr*P(&XImLKgq-<c=5B)w?VU#UA8{s`ZT<3ASv|9vR7?g1wgU4Ni21Mfj$rdJT
ztzzmJZhX)Ty0m#gcNi%7@=ic4@JBmnCt-f0KNy~X>P<fHDM%*<F|Qt~HB3;6dfZJ+
zFz|5m32~597&$gFHNi(@eY*T-NMDO&LlD=%BC-*GaNc3glyU&xks?3^Y>E$0@euE!
zI5d&DOXb!O!AZ$0F*+TR9g3A+iOVy<`CE7+{{bcw2_=SXTZ!hAlJ0=mJJ%j-k9TZ3
z%EbN`6g_W=T4KHN_C)(q$8!4y^`6)Tk#hb>^hj(Z9$4yvy2Z$bxl`;eLZz$YjqzKF
zgX?rNlyK?}em?x!u-G?uRnpbKlud1tu2H-aYmT=-_!fI#IGl^M3$<(ek1snn9OuRU
zO-DIy@^rb9XkKbrZr-4}a+(AZt<T6W+JI{A%4xELs%rAAb+snxWjE-N0t)>_ZSbso
zgKq!to^*-dz;(49rl$yNnK+;XW0xjfAa~J<8*@Y0b?xb-@~sJ|cuzrrQl?ZWo&0J8
zeqPB$BRo4D=9H{fHVi8ME^8rOP5%wBr^%MI^Ls`^6U<kHGH2Q~sk4(IW@>^x$9)8R
z;EP1$J7~7GBuV~>u>KQ4|B<NOHV_)>lbT00+Zr!PA`;RITgm)zba=ZXjlZqp@1*fF
zL}@v8qV2y*<7bJI(s>j`+ns6r903*2v(dBPy{q6awS>m1%D%288V;qLm4CKeCP_Oa
zlAoYQXj_YsO_OcDHd?!_#|S6|e*%me6_g^tajgs1ZIgnU2}k+1A_9EeVEJVD(eO(e
e_q-g_5G4H_HAs?We-3L1d&9b|@sUNb$$tU^@6QAP

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_99563.cpython-312.pyc b/src/temp/gen/__pycache__/rotary_transform.py_gen_triton_code_99563.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3291e2c5811737b5dfe1c0e9219d6e0868e9272e
GIT binary patch
literal 8967
zcmds6eQX=ab>HRZ@?-fe=}1vBWqp~pELoH-S?wh`TPNAp`Qsev8e6A;pt&oF5=F|(
zl}_>vaddFOQAq(&$seMCqNbA;N5=<5K?_6y0-XQ6q6NyebP=(2Q6A!d^dA$aKv5KE
z-z-1vqpZupDbTLW**EXKnK$$1?aXhU|B<G(1Uz2T&t_hC62xzDrS#MliD!RJ62u0<
z5DXb4CJJwIf|TmAdHIBb#5`G0Ij@>f&8sKWB*BuircyVRHzQ{ivzAJ|L@|m3_{szL
zs@nW1icx>4cv$RqLaQMve~g8pSYo!mWV7;SGzajt2k>>Qiq+SaP08%gF{5YIwdInO
z2B}`6<Sfk?;HQ9}v383o8)N!VIbkS!-~1slVU!W9u{=-H3hB1);|X1L%S7cnp+Gn!
zQr8xEc>98)E)e2bF39?pSVq+N!=c&5X&=vu>hqVc4ZY>PQX<~+<1v*UB@lA>JzG}e
z#pfXe3eT*pL{;7l`LHOD+7Ho`l{FoQXv)i)jYx5Kuu5A|v0S2%0@?3CrQF8()$|$J
zbFG?C6LQ{xPa@hJQXpHjnIWT2q`cdINN>vLt<QqbUVQj6W0oqDWuiRpBOw{sJc1fg
z^V}psaO4Vstc?5)cs=T>8in-PmYYiiL!#Fn7FQ?Qf?AMk4!1groTw4c5*@*1v=x!4
z6>0Cl3QP4iB!jxXTyL+kQp?kA(6g?jjgB&kPm~XFq`-5?y!8dG>aslVjzg@rgH^i9
zs_K<k?L>B@!o4B~QkQ#gL{y269s><SQNvi`!s?hxbkvRNxTokCYJpY4J!#64;}vcp
z&Z=Z54w>(9@a(IZW7i>;PP{TpCs92oM<;be^d#y+9g;UrqE5*l_?zkmu2e%O3sNcm
zdaA}}sE&;Sjof9=noFKV-RS5i>QdB^)w|P6dnm3#rJtVX`w8vg6{}jMQ&Qa}eLa<R
z?X4PdtuN%%EA!}KYuEeAEd9yW4pqGUN3R+xc)rrZ3+sifRV#7Gjwr>N2YHZ1+7<gy
z->mt|(N;QCxpT1co~lSV4RPqH%q4oJ%5tq3IF0(Mzu#!}2~sOY&!B$PR~^$U#0uf2
zu5x%o-^ZuxKBlG%L(YE-PI|?>FES@8!~6`(75N0=CON##x;3JV4~p6aE<DZo=Dh(%
zR0P952Do8S35cN2BdUCyFEkB6U<xFdp^Wfhjuqv;(29FNByWiFp=)EJeC*OyQGV^6
zaZx+;j(2SM`sLxPW1^uzc(09&j17;EiJAz{1sK-5e5*pvRLJ=XIVb9hy8duvzPeJ8
zL;|6T1S)go=HW{J;Y$DEO8?<GQ9JKj_D0y-K{h06xiIhJR=iALUQ`u$9L6@B3K#gC
z=J0VWDi;Eb_g3LGQ+VM%+1uU-wC6=NCfN`p8vKhK$A<Wl0abWvD#G%jv0}(O;|orS
z3V%2lkrqRgFN7na8m8-A;5q0j5GoLuvjh-L;$T9x?7iiSup$*+<O`IBU1BBe2rwB2
zw~L6f<x}wM6=h*~hkHd$ke%WSA}tq~o+;7*_JR>F$3}QjgJY#YQW4Hyq?ia_q`<gD
zMFzkbuCMp}=XlS1VQwz6;PbORGd};EkDm#LPWq<7TRmX3hiB&(dZ5-*bQKTr7nurk
z^W6(8Uf_Eng!pjC>kmU94Gx~^?*oBI7q#bDF2n}8Q5YazvB=*7=!g-2I7`sRwJWPv
zk}W%WXKeV1-f&<or#5HQO;2p~8yD6uBuCSAg0p+a))Ut}&)PBzPS1|5FRsqoU8zCA
z-nDAT*^k5xSzBFPlT+7a)GbfU){TbshGcWPU9k7;m{0AQ`vh~}-=F{G#a~?9F@IxK
zl`~u7s+?M%Fg#W_XDLIj-jzDH9*$jmqNCRaR|gZ<lj<FvEB0nqXH4`6x|Z0RIjuFp
z3fjixl%Q>k4dqpY(UKTSo)B#9f}uTjA!{&KSDzS6YtyUKiRqLg^}gWp2=$(A+oQ2v
z!=*jLWx;UypT7Oi6aO%=W4IB!@JFcTXiMUzKsTrA(srT6Bha3$ceZZ|XGR2iBsP*Y
z+7c^*(Um%r9u!(n3&zu1i`y&0z(v7$F?R6_wIyqFB$?Fp&6%`YXzCNdi<%0{yctXf
zgr)((HV~(tz`A{B^*f21sqroAE`4T?J}b~?e{K2H@his;{bpQNQn+!D!WTMQ)?!Oo
z<L7g<G10j?nLM9r*t{&z$KtZ=mpD%;?HaX8C0<L8r_OEOfY~`cg4wezdu02Z8hP@9
zl-!(5-xQqvg1H}S{DvCI)iuJ*ZVJuaLR~k^3aWf6EF3wrZ5Nu)3w7t?+R}(`rkJhP
zUAljd9u(-oUmyMS_^*!d(8HA}O&p}~b*J<u#Hq7OFn4XAe>DC%HCjELYp@VoD}wV4
z!TiRfqo1AroO(NFa{Se|@7>(InYx|s+-dR%CQs~A)?`nP3Z@RA)TWQ3ccUMEkhR*A
zm(m)+*(+Fk<5bq#m<+(eHunkEK3G9(-NwNBK=N$bz1_EK{T6V_UIgB6sMC23K{Y&s
zuaywVWl;|MohXOhPc#&EVsByZjEGwQVsSr>aBi%v4ulqhu#bo;j^!7*kY9s4DL#$x
zmhPs1fRlHFK#G_J5wj&})q4`;QB71E)kXE8o1jy?9aX77Qe*BI>?X2N;(O!)y@0JK
z4ZY}*qLvk=aOsyz_eKp;#*Xs%gpnSkVB`$pfHA@aUg03HPOV!~33rt5LrSEK>JVAW
z-Xy-&8KOoct0k@7rfQBxMu~BB)Pzh(Kj)~LdyRW3^j3rGmo3Y1kDLj{P(v<RQ(}*j
zgydIpR#);!<z1R{l!RVhCYSMasTGp*Wwceg>vG`Xs5#Vz<Td@FnW|o4`AaRykvwWf
z>PQ`LELp6T$U@~jLkMCfYLPq%tHSj_+mjHFW<)S5WMYW#%L*wWWU16&hps~o(15@1
z%L-*tSB_IKpj$(NTQTyemA95hW-C#ZH!_tX2v!-#i48`hLK>t+x+!_IE~J!bC8qg?
zQae;9*(D$|AVU_&rNH=StFu8xMW&p+IY3^{*&HBOmPU7gyqrgZxO=(%+VYBh*&*#~
z%PZ|IhqSLPKdgOa{<Ygz=C6mC(jgV1kQLeBUQqM~3DGfz?*;pK1C%ZY9Be7X{(r;6
z;g6`>Evvv<Hw~bE#<#$ViV#M?azOr~9N@92WcU?eYat)V2c{Rpi?9g?U~2}n8-i_D
z2{!@%jHm^~#;<sTfjQWT3+PNVhS+5QnBn(W4)$-aM?z$PttI^LuIDb}fnCAHRa{)d
z#oM^R8+!qJU&j;%;G*)Dj|V%d&<yKiBHRhgQ)3#BR?COWFdIX0!1G=%403?iAm@%_
z?YifW5--n&B4JLH1A?yjK~zk`?IeP;zqPR~cM12U_bn_0SHK3oGH`RinulNHd+;H}
zh<rUkSu$#S)_wfv4G$Uwsw1w9FC~^X-^&?IYfGz3N%Ifh&rpu|``M1pkEicX3sh@d
zn;1!6$eJ8`CYNAxrObk<HRTgbopEJWSC`Q>J+V8JvuShMk_@HqY`1QE(jN%T-`r~&
z5}Jl~nud4mBk|F!xe<`0-FeTxX%`gru}ksyvN{9CkV*MH&8FtDt|g;r$>>_L=GT(F
z>y5Ed=sVf)Sm(+pTp67!tJALytPUjn8-ew}uC6Q9_wnHU!N<C;jG{}B%8afnr={1r
zSG#w#j@VGPihim#C%XTpbywYyb+rjpQ_k45XKWRWt!ZUy`LVGlL-k~gJz0C_p4}tZ
zJv;W(fRkO_8LH`v_O8Ed-_tq-ts~jHt8Ln9ksvK)NnCiWZoGe?;DBsfd&-~wvj=~k
z>F5{Q2I4~rd17My-HgfgSl^Os@A%2>pS7eX9=x0BJS(&h#)p1H{-`%GyFQmOwFvs7
zIfD^{Tic$YO)#{j0PLRHIwu&;09M9W-<~zqC6<y)8Dqz)A}7&zGREU^#Z!ej(IzMw
zvXmy?2NuV&lqE|wK~;i?<{#=3*Eepg-$?p?{BEk{<74-arF(yRB7OVk%MX^f$%pS}
zDczcORh#JjA)Sb9+*!YqYWZ>Wt20ynk7w`CZkc~Nzcu#DiC;`SBLD8YS;{C4!jPq`
zS<0L>HNd}rZ!#)Xc^9EK#zwifAQt`bD?j+;m2l91K)FE#h$x^L3G<LqSyUcXFtVt!
zDo+7n{Nf|+_;QR=K2ba@qL!%YkTx=;ESxS<D?9>tqUx{JimJj&Dx^kKDXSONAk8e^
zBVKs$$ts<N>PfH+s0`1Oijq~<Yao(og3<hhl*U{1LR7~9qWcOS(xQ@oipb+o|LDJ#
ze`>e-l7HY-&@;ME^bd=^d5NEB$xr|1BLZe?cv$lN!BJuSe=}RtSD39C&lVAY1uR$H
z3hCtEj{$2RJ8J(8T)3csEYu?7bCaTqVV44aR#FsoJmiGDe#kU=d)@MV0@90I2(-B{
zF2<pNF7bD=&*0)S%*FqI#o^;{+%13MJg@H00|`j!WUsQ(2RwY_SL>a2E4lAto)VHk
zOh`Ixxxc^+RpA5&=%R+y)nbs3aJPUjVFS*ODLg3Y@P7eoh$=Yr7Z!O@55NHuS_NcK
z8Ek}xhR>b<g=60=x#PLB{{ztc6n>Ha0^h`loWT^kkk=C(eS+d>Y&hPZ=uZyh%+}cG
zQ;J^Gt?ClP$^KM-dSJVMmpUIi_f%_KJF$8qF$IVFxy|s_)UNg$v7rOFv_099980zC
z&>gXnTvO}4$<4{wh4>Xg;Q*8EJ%XYob~(|J?9A!u*zi+x{f2Yh`MCMicKxpTjo4_;
zY{Ny>ST3hJ(w*BKyVSYLNM=*Vx5)cFz}23sjN}DwX(U_6KXYV!>@Gc3V?cjWA8gqm
zZSucuG|lhQr@v&BBJ|eSRq51qtE8{t>eZ2v5w}^2Th0s7AsP#qxH|}m^hHQ?id2c>
zaFQQld1WCGn&$8s$>A?kl+Okr8w;pA!n4Z@ToF8vOQ4mzfi)Dj!r@@yd%#gB>Iz?h
zcRCzo9uU%a3SmpVJ|AWlgX}lCRnWu#MG)zRGA}1d^0$QkUkLhN3Fp5NM<I_Wqds!n
zb>w9}l01{|A}lr>Liv+YwVN<m*3c@-_ej-K1f&%wS10qmQq@ze{=N@apUDZCzSzy%
za^h5P)_oFiVfMAAtj(USZ~UEgm?Vu^wf-Y?7v<%+lG7O0oU6{f5?5d-@MYktTB=e+
zog>+rT)c-iQN{s@&aS*h5@-ptJz00px#@(2R9+|X^q6N|r}MN_H4v8iyip=egu#+G
xOQeM`+49mT@-{-H`)Km+<g+>~c?M|{lKwq4PLkH&EyxI?Ysb)XS10-Ne*mkcuq^-p

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_123151.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_123151.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d9cae45432d509e1ce176111ebda0a514fdbc447
GIT binary patch
literal 2855
zcmb_eO>7fK6rR~#+q?crf>Qzs38b_Xxin4_2dR}J2;`5H5)S0#i@SK&j-B<7cGqo!
z*3u$Hf|NrNRaK0H+O(=vT6zEpiDS9<WE?ftl1fPQ!p$XAs(R|1UGHYwMoAAH$usZG
z%$xV^yl>v~Poa<>L3>C4es;l!&~u{LjcE$oUx2WN1SDVy#jO#?v8huzI?iAu;;ea&
zZEB4IB{JFI-{**yq6B)8xz}8X`vgWr*|vZ01A8vT2%beI?svR<7g0PwAu-_C2N!U}
z_kx&D8~*bjULL)exH1(VPulp&iU)o){I<I>`4$y=t7R!$+8G6Wuen}kG)AMZfpyuV
zd0bZRvzvwj*64f9)2_i>*{gXqY7S<~K9{9;$B!*(Nb?d4&G!RkpHOC1dl_X}M|6a2
zz!4omV;$U_%i}H)&~VcuXZj>J0}Z1E6rrbO@(~eiFgaeCi}(yml?;DTE~I5Xm&gc)
zmzVi`S~M7`zzbxTI&08MCU1BYwIGWTzu}or6jj;q7fNceq*`)5AxdIS%&Uq_+!=Hc
zjtX3r3dy;IqVlq8_zJ0%BEmWemVxID8tfIqt6r!5dAa|Sf;^`b`J~uC%O~f+c_H7&
zr{Um!MNamsVy@T^T0a0v%!zVdl%mCj1k5B<IinWxiDW?#69a>>fzt!9VzgSD5~)%?
zsb&g!xdR-+Q$R`yIvu@gL4nY6-%?)%*Zf`jXgz$e;;)8}>lf=Sop;WEIdyw#oxj^v
z>mI7M4C#~gKzJoy4II<QwpjnNZ^^gfsrXh~*M$xClzwi@A6!1UbaMIB(y0~xR#YF|
zV!SslT)%KLUO8C}y}lm1JM%L$xDAex+zwsR%}&A`lfya)H<&e~p{&DWm})lrU3|)@
z&A1|z-G#3ja@a!MWKvkbi)@)z$)}r5qdQ>)Zc<B(hJl&QGce3tAv{UCos*am#M|#d
z_c`A0i7jCb(g|^36F!CEP-@yFM}#uGR<sNzDP%qdow+nVb53pr1BKj4uPz^i!C;3a
zK6h2%&s^(C@{(jnd>ClOOUjw3z1&3%4@38dj_!1PdF1wy_4xhQ?n~8y(OTzN_3(sz
z2o@vQa?co^d?_bNh6f0poHhJFDs>?tWq>P$9ubcj9gE0bi{%EBmNSBdkX#0#?1%+2
z;DRQ<0c*sUG724_sUHZh9a=r~S*QNNRw%p~>Zyi$Dts-}t4}-)OaP6T_LZ?J(^+S^
zI@?lb!}a!_-#L%R+X$jySifWfPr_MFb9fSkn_5E|RNg1wr6CkwV^_Y}g)KXoDeExA
z@rZ2Bm9fg%v)WD;r8Ek{O%KD8D=+O<F(BIu-hGhxY$ooBgmxjJ9j23fjs*4}NZhZi
z2|tbYLE&WTJyCdEC_D}dQW=oI{TCF1|9^^%&xOS2AYnBYkOT-44Z#BpPDhxu9l@s1
zIBU<0GzE49%7aHx7mA`0P(?*eBzXmrs#!T+kho?La0s3)lmxM;$R}XRy>rm5#2lB6
zA8k*MZBMq)_SkJQ6!FT($eCVM%qs=i@TH&_sj)%G7bSr=ADO{QnY>vjBAnrqMWrOE
zib2f}K%p_~(f}xfwlWAx%vNHc4B5(%LMTn1v)QaC-PZhSC*{cR!=`uPr))u|qh~E`
z`sAx1^0zK`FLgiZc>CdrM|}_aHn@>ZZoJBk*SJaj{I4yYmE*Sx`sA~oH}%Pzm#R#c
zWpZ@sXa!dW*JmCceAM%xXM;Pt$&FRHu^KnAhZQ(lx%!Rg+t62`4KBLL#j0Ga#+}~V
z;z>vJq4+5GAh*GdZE{mpZmPyz+|{JPqF}o|ZDq=kdH*uWt46DptD_S9Ehs@LhMR9n
zGRZ{-oz18Qmn`Ig4D&_VOreH%#)=%B$*X3(%o{WUR-h8;f+T#0OkZ}U&lQA{B%YDa
z!<nS?C?7%BpfSeJQSd1W{erq1UPQ4sx~_LMs3493-~;Vz!PVeP4zz6=Q9*0|s2_({
nPOlBG4mS{pcdu-dVf!tFLob6--2U4vMy<zcExp$RCW5~JCN)Tu

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_179581.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_179581.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..bb602d7ddc0ad9e3f2146672b9197cd94a190481
GIT binary patch
literal 2836
zcmb_eO>7fK6rR~#+q?cta7sc#0x6<YZk2@mpwcRWkRL)y2?w~;7i;lu96M{TwYzQ;
zw3Zer5~LiGsH$QrB+{x<X~O{|B#!0YlX28o1C@~Ig<DFfRQ1$1YwyOODCwaidG@`T
zeeZoc@0<7hYbfMLFk<PSrz1XuUQopuY)#nu7K9ZfAqgueR(;|awsj`M#yE^*oVNWq
zrq!p!$Xq)3<{H(e7>S+d)@mCupTx;1-MHg>o_Q`NxRJf{DCTF7?00Pgb2#dINlhn-
zfB3VDBj@9nCSqd=uFjhWWcn>z?U;Ut0dsYv8AsZFN_efdU*Js6WUqpC!DD*rtm=K&
z3?*!`Yc+3IVXfdby(TjQD+OPjrFT1yBbmtbQVY{}k8wN{c*EI7Y2FoGAsui<S1@@O
zw@?>xhtoH4Euvt@tYsOaITU3lHTn@zOt_4w&qRHMF%;s@X=+jvGx3x}yrL#%lQQ8H
zRg~yk#x!B|RF-&jL)GM{pLk~DIYT3UHE-ndMpe$nWkt@&Swq)oIKt+@Rp5%ECT8Ng
zA!-KksZ&$B4Er=$1kVyYr&C6Cy5paVJzuKYjGhw{a?iAwn1Rr0wo6Qc+a6s@^cZp`
z*8^G)z=_YuT2@xNb8~T6i5ptVP_yxbD#`KQk3K$evKMwpL-nQjR6d(9QfgLfhJbJh
zke-LhLa)Op5L)b7=qlo}zs(w{MD`c`rN|NMd?nm^d-%@8t%+6fZd<v1pcEdk#w&ry
zQmhm>Y>htS{foW@-;$^3TW(mD*7*;uGqttFz(Qc@%*`+?aNg_ZuARFPE52U}y}R0b
zci=bf_!b04S`$nOm!+Uk-q;MbK)BAXAQPqQ_hFR|=T>~h8nvt<l-_}@CUUugZ?IEX
z!t;EAG3ck;!(>|F3CzR`ti;@7*J?g6tXx7-Zt@LqG-DL;)=8MY!Fye>1#Chgp#dDa
zPf@4Lq)m+|L%h{&5iTL6z5t!OFn0Nj)&K@NC1<Cl?S}{92Nf}MMG{Y4?MR4<;$(af
zNF^%zscvVxjT#<+>2C|&ZoYHy*1^@-{devwrQVTp>uBk~xYh!jFA;oW6jw2D#FNcu
zWQBNu(}`)~2WA;_aU}(Wp&W^Fc8Z9%%5lOawUksvNKXnVJ5<FOs6(b5g)JINAAt$L
zRQ5$yT9#YBZnZvr7K&_yI!d9AqF4@fT4$dI#(_m#)6!^(Ypw7?g%4NwNTsReFTvyS
zZU#{>VqLItC%~6GT$*&lL9L(^D(q40l8}k-ab2;gCEE1}!gg6oy9C+ZcPLlDhTyE4
z+a;7S8OSy}2wQbUX{T1fNgm0&2NIt{#9fiFbx2s3=(Lz4iGK?TCDdCZiS|I@mg!wl
zc<NAiTokk|AW8TyC?x;?lo?+g5}%8NH+eu3ph!#v_b)gZ<&w@()P&8`&dN|t;D?|$
zcqC&kCzF67>qa~w>QGbdw(*kYRXYR|+*;@da!%KdfmZ)!U%k@rhTQzciS*cs<Oq$A
z>rDotUagb*^cr$jS2g0Bf=*=g_d&VHOQL<r2(P5FcAtm}#HY!6UNLmS%=SW;v71sa
zD1DC72TH%A^n)_sC<8jBwA+BHSGuwG)o#VnK7p5x!%u$(lZBp#8?EuzLF8{(Y+q=9
z()_{0_a1dU=vo(sHiWT~Fjf}Et>Hhyt;HiZRcrit$5Cti#)T5sRy8@aaHxojeXExr
z?tj$rpkrM)y&;U2gwe8ab{8uMv~=YM&yS(+LhC~JhR|OU`pd$J-7TIpcR!RLWgcYK
zh0zURq9ja|h4VX_Z1O1BWKG%yCmOWRU!!G}G*nA<w*vnO^3aLl<ZF^fYY}17DT4?J
zH49{z&1rV=B;Lz*=Im72hera{9L1BWBK?HyFiwrns8U{$Pie#8j&?l#bC@<+jPVN;
ze2PN9qxMZNV)*NA*V;CjAnpaM`<hmQ%fVLyXj?2|g4OjyejHgku`;+kxP?I6I)-rQ
VRj?a3{W*<M!{Ktc^IE_T{Vxn0LCpXF

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_370053.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_370053.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..aedcb447832c68b5ad7173d000971624ebe114dd
GIT binary patch
literal 2846
zcmb_eO>7fK6rR~1d)I#n4hbYAB}KHATg4%9P^&6}5b{HygafDtU#yLH<JejMXm{Nv
zXe}*LR7g1_sHzewB+{x<X~O{|B-#_)doqriXrWRhxNvhxD^)%9&8~N2P?Yr0kv#j}
zn|VJo@0<7hYcS|TFebkEY3i^Sq348g23;ezz5!whiAcmUirZft#}-dz={SRtgfo^M
zN7ep{l*D8LugeHGNs06vvszn-dqqY<nZ_OWv2#qEcRhRNP~1l$$>-|&XK}>)lBkZG
zzQIo}oIaPhI2IpHGIiEipvhUb+A%qY2D3dfltXQQMZ8*DFEKi!)0aWJ#OiFFR=w?-
zqKI{RwPx)y$VwjFqf^r$DS7KOJ==a9N=LefXz1R%lw+a9Y0fgra4zW*8NW-qgwDBf
z^K~9~xP2YhJo1*$T9z@IMG<;jA%}=ylgSF|bi`{?nr!+CN<O6s*+g12J%S?SQj*EY
zc|jz*v?-HT(>aq>wY(xld?q`SC}@i5%NMmmQM2h>LXxGdl+#p&xHIVjnDS4^`Q&s$
z)dWQ|z4^&WRf2VrEECU|cvdBd>U76H7rH;sE7NL0NJ`yPLUI~h=W|^`3e0w^O0rv%
zvW0Hox*?pzw4~%DIa-)afFz+QX)T{iB=e$_h<$kM*zp*wm<{%(#AGp-)YAE!(gF_Q
z5g=8C$v`iBfrYO5u4P>DwHc>3!_CXSa`=dGZX?usYw-5i&9N2XPFtnDuN>+#MmPN7
z#dz6&*cf`j`4+tM-bHrVd!u1RT;o14PCc__3;uck;;HK)5HOyrXRe&N7GHj^9DIAF
z=T6^m%&{$Si<Bmqk}gJpA*iwNI|sy7W(nyiQ@;*UGMqQ@C8O1Hicn?;tm?=`3KnsR
zy2eamk(%R5v_=kZ4V`X<FJKeTGdgvbUai@|Ai0Pl%=k+LlGmani6fzJeFW3jc&~Rh
zk9DXg#EXOaNn)8Aw-6GcOpl#3lSzu{&wyvn4_`W^G=PFiFxqJ-&G0d~ep$#)h{B1>
z9Z5l!oy7M8wgg!{5p|Y{C-opqe;epl%k4uq53R)S?Y}3Ndrntchsp;>lmoCB!M1zG
zWOK!=B%3UtIyq(f09)E@LQVr@2udQXl_t|;qufR{lTy;69U-|4g4_W+NPk^u%28O`
z4?pz`Oc2e+zVOn48wb8>HO@W@hS!4~<zUCMPziP#Bb)o0jk8bvBLFI<X>q8`v~F<x
z1{d1k!W&H;fAK8qsfJJ>Y@D~EPl7>rxTuN3buFPZD(zAEQjm}Da9!ou0Xy3@D&u0s
z_2?q7gf-rg>f7~{(kaL}-49E36>6ux!HBHr*&`CKgUMYZq3a@{UEGt(jzsQ_NC>Rn
z7%8+z6mHGlH43&a3f7H+^av#K|0N31_djLETNjDfjfB%Vh{R7K(Gk4Dz<7j7Iag65
zswW-EK#kxApi!`*Hd~NPzb2_#A}Od+qQ~kXFG*e%^6KF2LUWJ`s`4&y^*ej(nV9Rc
z`pEJ0*zx2LjgRY9`XU~sli2iVQcle)rgswBk{0WQqEQqD>!q2ToX%NIBf^_rMN*5h
zrkd1D540SsL-hdD>oC2*#2h9DOrOK_sRYvGO<Ti$*NwGPyLCtT7&i65PkjcHfi^>p
z#^|2`<ZD=HpKpKC^8SN&9(LXDTH^=S`Qb7@T;WHJ!55*{<s;Yg#^`3pQDgMl`7+aH
ztGqS;)-qo1UAgq2`C-TXjy3+|IzLqAhbsKYE?VGdapHUShv2utH9oq|$I5)H!XMvV
z<4H^Of%GtYKfA^ct@C4LeyqZu+fk*;p+J){ZkNk|b^ppCIIP)V7wo7Ee-Mh$mf_}W
zltOBeNoUfU$tUwU0K-f{vFfPlxnyO|N|kkarr*v{B9)iLACcw8sr1>rSd^s`${?5{
z4N(0QrYemwevSf9QSf)vUiBb~yV`c8txEB@=V#@S{)_$!0l7sZDqsn#2SYf#czmh<
eM*kK9ax02(@Kqp+oBo)>sNrxW)Op2k`TZB2<3@}C

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_473025.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_473025.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d05bcc1611191c29e32c18ef90faac4149de7983
GIT binary patch
literal 2857
zcmb_eO>7fK6rR~X@A@YR4g?YsND=*Ut0d%ywn7mkkRMVY9N^@OwRqQ#owe7RUAGBZ
zON$hVq#Q_8RS6Ojp{fLJI6#F&d#K>vlX28U3zd-I!p$YERQ1%iYwu!cl=RS%X7;@|
zGw*#f@6CJrODN<=(CU8vexl4F^xS6L##D)oAAndy5|XfjqLnX>Vuz<Pbd<qJ#%V{7
zyS4I_D49tI-;~*0f|BSNW~Dk2^+}A3(hdJ!C$XE$6O6>oFj2un<eNcJKZRt!r!z2(
zBm7HS<+$ZPe){Z*Q?YYn(c!pzCVPg3PD9_=gYEO_FjiWca;eu}39nS=4f-PNEHDOB
zv!hmTb(4e*dZnuABFGA?!5Y*gND5rdPPp~An}H10-eGWeC|5(lr+drNyhnOOI^dBW
zVfb9k1-{1OCLS?x)gtfMv~L9(M$;%lj}!Y45o|FTQJakTEJ{}_e~ze0B4%PK$>KyJ
zW|OkTD5@ygtMmzr)>2uE)pV7}5y4`oVmX~yel@S>@_L2N#$-j#$XQ(@wmB<sK~dwA
zF-;eVZu!(iLX%<2_K}6BEIh3VK(@Q>@3UQBsAN*hiE+7WLX1y>Q8n8kCP87BM&ez%
zoXK?o*9AaglQPN5N@s3529lUgQo5Rr#Z^g;^?lNNsOK=uSoM`fu|z%_*Hdbi>;ii}
z=vo#A6TJxUT<lorSjMIBf#qm1+-06xuWP=3{KnX|v1RdgOR2T5Sl4Hct_Q;N(PCh~
zIrNnGU-ixT=Gi6RLjAI|%70`IR%KTMbAkE6D|H}XxXULmot%v>y<ZHyv)p~V?^ou~
z23SNS41>iHS<jPf+zU<++9Bfvt_j3tdJ!2YT{{m_ySb0yOIoiw6ruDcfodQxOz<q7
zz!IL}3zTl3-Dw8Z3||OJJV#5^9eSmz1B2uoiZJ7EfU`Z;2z}#I7{12ay{kEFKwhy8
zxRIW)l~UtQR75C?tGLTz;!^5!;F&YS=LbnWY|!kuY&XeH_*i_uB4#c~;?aw3aZyoR
zm-j<ZiHdf#)19^#YkOe$%S6|kZtT6bcR6}@=Ut`PeWKJnRNON{nqcxJf-^>N1p{NT
z*?dM;EEd8!K4JMGwDjqil7fh_gCxRKT~!Hhi%F7{R6%Ip6ol+R1!JHF894}3JD_WW
zFaVhK9pS~@3%kE+Ha~kB3a^FQilMe8u@q`IN1g;mAexxQ`Jp1yyv_@=AI~3IZ`}PS
zOS4>=N5Qap#z7qiO<wbYq!X@b5v5RJn+%r(KYW90vP{*@o<<;E=cBY29<S%!fGc3#
zeymP2yu4YU3<`Wr_k+A98*NrM7>Sj*ZIJlfFx(OeU4w-7!W?opAmQIaVu#aPEs3^4
z;pOKoQLr^ASPunfaDYPiFDNAc|Ku584U(GbVDNw>U?VXQyuRRggh{$rQ6<X9T**L{
z;0K^6u#!HVldXU*YkDj$YI3aGsTVJ8zmk10z?+3aAm=pl9&oiQduo|p&t&<bYw3||
z$t4;d)o$sFaHQSV$?0-dQ;FqEKnc=&dmvflCDD0e7O$kTPMLr@<Rh|{S9Hyyrn;fV
zIMt{dm>!qu0jAewdV%S4nZ7scPvt>3R8Q^Y8*&8Td;nd03WJHB)is!-e*}@g{%Y%7
z>*J;m@4x$?<6g(AFt8>J7lq-HFlruuQP;e5;EHOFK5IK@j?SJbGA)%Y`{wp7;iaDC
z^Y?c>XuH?8DjZuAhKj;aNf_B;7Z{qq@GW~QbThOnbgl`#MWMGO9Nv1z<EGC0@`KF1
z%&IW7CX5w@v666V(=B$wX*9>3gcAum_fJ}EC)8IGb*BP919>RKaPw7)*ty7}(<$8&
z;%XLxVJb(Q)M;_&9nU$gaxTvbRD2Xms*3a-a?H3HKBG!`MLtT7gF3t3X(9||8e{w%
z1)reMZ>SZ1Vk!P|%cYhw#o_KB$wT8O;}rsOgGN-)5thR|4$mK6>|f|FBOsTDZ=Jq*
ddc!6+4j>$Q73{=~zfWLPzrR%1ektHU_y^dGM^XR)

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_502063.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_502063.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..0024c0e99ffc6edebc0eb651b6becaf07d5fb9f8
GIT binary patch
literal 2910
zcmb_eU2M}<6u#H79Xo$5=_s_c&`k`KP4u5>(kduWS~{R;f~UMhCU)DTP8`|J)*?qT
zQYGkkXsc;zkdW3*lg7p#Kth5&!TX*<s<pZ>35mV%Rw$FEJ?&g4cD=1?_pmGF`kZs`
zIp?#_chAkw(P#+4IHCP8IT}Rh1y$Sux-&K&!ea@^NX9Bk)}A<t9i7Pqk}O6F&N^}G
z9`%RJC~P+JcN^8l896Y^-l;DngR&sA3d%PAdnZH?Wp3-WabD(Uxn#)06`V!MFoTq^
z7dbM66XHu6c8r8hp1W}BZ0h1@@^qT@W#T{%z;B}s)3-EXu8l0?N}Ep^->I*cSc|m+
zSHQc(S)9+yAG_`-V=Hi{9_<R)O1#Be%oJEkL7ykTna7nZWbxF)3jWBr5lVvTE~BjA
ziJp)Rd!i>;f`?o5W!$1R7OrO$ot*T`z`$q*B?4nQeTf7nY)&$!5<$Y4DhU;IZ9<oF
zsf<i`Ntf~y3Sm`ElIbpUk_3!Qo^Xb#=}IC*xam~E)JaGynuVfSlk+J>RdPz+G<2Gd
z2$xkYJw@Y%Ym#9~x=DiC__(3KCR#CqrwN`hDCs)9@#lrE&oq6?C`f6gYf?&2L4GZN
zM4EuuU51|SGL>AR3$!l4l$uiXyrOm%W>R2DnR>?5@~N~YE2*R1z1<)5!3t@pZAy(7
z^Jz1q<@IJrNY8~)gvmy4VyH1bUz#hGKdCkxu+OZ;Tg%Bx{IGp?E!J}D<X59NN0+7B
zt<|>vO03@=SqsM(l9liQd+3=Enh(we7r1h8v0+(W5#F~?)NS+Ox$we?8!<4j{IxSz
z&s<NI4_BgZFZbN;|Ap<|fW$~|f{F0DVixs$+D}wUB8Sd42-nypWTC7_X)x7?dqh5G
z&3cIu%5Fhj3wgw0uCwD<#<M~xV7jdVS%DUa2sCBpSPKJ5>oG7`E>g;*{mE(NDDsUD
zVfqs9blT>y1wDr*aJfH@At*EE@Fc+yzE(BDrsd41ptCszsL}uq2K^=-w!Rx4L>N$|
z++|rhcBMTnsj6G~0ic<r8pk@_<yPvr7p6aKbgTKReK+?lC-1&>SFQA%s<sSO_73ZN
zU@?Jf=~=?%i#bIl9B?~5NkTv_b0(!`fHRaP3C^ifjnjOM@PwVvGja_f{TP(GgEf$0
zA2j_StkGP?DVPAw+OGK0p2a<1wAdd%i^f-@?UiVIS*k`m?BS>3VW1P+v@ld*Th;_|
zO^B@t@wKM*-$jn&*CQwrx6eDk(-6xW9#1;qOD&-cD(%qvCZH7GU|;Lmf-Rd(D(f-C
z%ZOagm9QzgR%^4NG8O~n4h+DOuSIQjt*|mD^E)63x=h>_Nx+9B;4z)Hb|ee`K;l1T
zb@&r#2NYh@-WCPtL&13{=p}(<@xP#uL;q7{f<7cc4~bw2fFw+jSO^YaWGul>xD~7m
z>&IQoU|kRf;ilkZbEcq>u&EekDlHjGs>iuRUedb0M8F|9ws1Qr1w%gsCjZV}ztZQW
zTz}+ddhBL$g~rEzm;MB=chH!;spJh!C&6*Jm(0Fi=odv<at;|0)J)#FFcKmO>WWcR
zO@lDgJ#gJPS5yxuy{^&=N}sFrfzt0P{RX8pJ<iUk9qGpUTYD`>{|Gj9!_RmIlZ~Fo
z8tsuc5fo~eZ<}j-()`~2cOM+NcVtBzToq4O#M4!A#6J03tfl<U4b2{T-hR*?xqiOF
zw$@zs&+RYca_{n``@0{s-)mnHkFSbD6>+F44sYWHi54z@%Y7I9I=Uiuu8MsXv9Br~
z-QMF#bLV~KLGE5|MI2fcM=RoJRXn?;%esIfP4<}EDHHIXiKtTseILlAq1LiHRrsS&
zgqs-(P?vPtl1Lz%F^QPg^1zAdg6?!u!e6QtFp$ZcPT8CfNy4>yr6x30{vJ6g-G-mj
z<f5t^(}y4?y@8A=nAQUr;}<CM6h(hUZR<Q@glnx=Ti2Ng?g8ApnwBDqk=G(<8v(>b
z9Q&*NAsk;gx-_sju#P~yebIS5JpJh0Pv<tMW#bUS(bthq-1KS^qlN?3SjW|{1LiN}
Cg;h)d

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_50482.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_50482.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..baefda2e4ba73c962e0a8abc3eb493c28789649e
GIT binary patch
literal 2920
zcmb_eU1$_n6ux)<XMd73TYnOhnu@KglB6aPq=>&8W2&YP=4la@ac4H!&Fl{|v#pT{
zOhAayheS$A1i`cvYHJ@91fehWy-(|gCR|ex>Wgoyu~7Qdb7yxZ(>5f1=!Ly=&b{}X
z^Ua*^p0htkqag(2=C$v~FNg^JMip;>?vC{z;jw^Jq+%T<>rb4-uFmAyB!`iPbFQC;
zMdP6|8kdXweT`}vMrE&a4;mXuQAVnyavI9D{QE5UkX3&3y^Np=*ZE|~M<!lJ$uNVo
zu<tuEiR1Ds>UM;LPG9)+%=y%%;pAYN3q;~UX5qKqf$4i%FxN+p@uZEXiXSxgr#PFl
z*=t}u#oK(qD(JgmsA8La(C~H*)}{nou$c*1nGyq*!bTiVvXL!N3tRkw@jOgPmbZ;^
zk}vu~F6@iGU`sx3IS_G^?AW*wQFdd}F9QRkNfc*C4EhprOt`#aPQ*pRSUL%njN+J~
z<WpId2#TQ;#x%m|MMb5jtZ~Ac*#hBBt7vHP5aF+;N|r%F#j;f@TXngR(sV7a6)e-B
z;Rss-SK%vqF+GtoEyb{iSj=Qh4fbiW2);^Kus12^y8Q9yNbl!GW5O&cX{~o$Nl!rV
zVxe0Z1IN9lk?ys$e5n_-UI3Ju(2Rnn_mn16u#&QjtW_+e(nVEE9r<YBXdi5l=K7gb
zrd&u{*<!)i3Grx-%rZ<4dfSA;(Yfx~?nPV;wL524TX!smDy{pR^Q%p5cTe9NzB9a}
z+;6XT3{;v1oT1fl>wK~j-s>b@N})M%R-ES-#oNtG>aujmIkgsw%pI6LFn4J7(7bZ1
z$2qgc2{Y%W&)rBa9;ig$U+TX<`U}^$4uO#ogNX=+W|fUXI!ICq&ZV*g!VI^7Y?Slq
z3`>pSU5}fb)krTwxlL$mBcC+P4K9OKd|jGiEw3;jn{5M+Kv8CvvoR2~;RD0UB}$ic
zFgQ&eMZSI%rZ4e!H*FT%P;qDgkM|i2PMHyxBXNcZ^`sFlt!6(1ox3<Vddg@91CxG}
zF2~pb4<a4YmHZV|Iex7(t?0U!_+!8>MK_Q4c-x)Sa5qeUIOy)qdwcHeSxP>9_n}@n
ze5Tr#sO&y#?1IfWu7~FcUnu7_o$$cx^f(Ctx2(yOo(0ZOn#6fGOLaaAb+Qv~%*d*B
zg!E%j=ANvB3<sbY`(cm9G6!J-G&Kpe#uj$n-t|SB^T}GYbtT$aiFPh3)o7P<_IdcM
zlUU<o^N9-AwkpZ1Qq!u`x*F^JUFLbA7D16#=b{Te4c`3WGo=T<)dI?*scj117$oCs
z94I`S@MWV!<$R9#5s}BbDQwB!s=ZN88JmHGv&Ud7P@pzzE1b%!!Zt`mkBeI(VFO55
zpX;=+LreMxlHfgSz#l`~pzurfmMHiD3f@OSTLe<&|AImd{ZE+@14u+4iDXNFButUm
z2(DmcB+iX_8Ego(6W+?nh9I4UKEbQjWJx1oOEaxhS~0cMVYh|6qIu0C;1FC~=nY!Q
zG(Lo-;K{zA((i|?{p3Y@>P7N|mZw3Jfw*9FQJ;dP70jYR#0+#LtG^E_Mp;$dYepnJ
zTW~u@TqdHSnPuHF33K%@bR4%q9R{V(Q~E&Z_mqB620UfJq?D!?+8y;v-O_k#zvvhr
z!=XO-nQJgP=tWbDGxRosLd|m>vmMWN9(?@4lkP{|%ks$;d9Wf6R^=h*^vkBU#eKJm
z&d`g_{m#&hixsZDZt~vjdy9CnZ)x=LjwhXuI+x`WD{`VDC#v$<Evz8W{FQI`Z=+vD
zm*t)nxxXU!SLGvHTRhv@^H_V5f0SRA6D#s?MINro=QlNhS`~>oBaK@5%7OQcN8L0S
zdq5`5^`hOQ!{3B5v}Q;^Lo#SdB5W>e5jkBf04J`N47ZjNVYHq=He0aVw7DOWgzNcA
zjTLqEJLHD+N`AhmmUZp8kpQ2x2e}=)#$t@0qsVg<{S|f81jI-)?bGcwCW`w3_dBtL
z$nD4*8MJj4F_HTEezdFoH6O*Tt72rvp0;Z&$S+!AHM#~qgz(Je>C5XPXzK?Nj=qWX
T;MnVNjGFgWo4TgMF08)*-=$T9

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_557502.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_557502.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1246743312d533b0cec51a79603837900c08ee40
GIT binary patch
literal 2847
zcmb_dO>7fK6rNe{+Ft)8fyHT)I{dfDNF*e|q?ABX2n0e22RQk%HQtS5$M(9r>o!4a
zX{nF^^#Bo-?A}6!L@1RCQY3mS_g*lL8f%(LNc6%j5PIpUZ`Qkxp;73eBYXC}H}7xe
zee>qmV9<wPtbYE(q|1xYbILe_vx(IOAWBF=63(Dl{flGR;+d=~#$qJnwB^S!t$!s(
zX48Q;Wt5v>B-a)8zP%9hNM4DRQM&Elni99Ze1etSSGXA8$jNgB#e58seGRYv864qX
zP?zJxckHus$Ipo8PsdIq*rq6Shc5W9hB4it4s(5^8HZZ?O8CCLUSti{a9slHB4=<-
zR?WU`LkSzM`?j}BAS=2Jx4}$-r08j~bg#v6C<7U8YGHVOWE>AgukI|PG}P<uk@mkW
z0ef#FZ@wwwI(0Fy9g(+U(vyLK(F}^X##OqB2qtVcu1!TegwZp^msgdf8qbO;iMZox
zJeQOSn^EEt)zT-4OH1Vlr|F6+M|^~v7W2AFd`dyj7xX%v6XlGYm2<kL(s0C;2Uq@!
z86`0#YI<DNiAR~3&}3Mr#Ugl`xK&vzWOR)JZhK?=eXi##MV->}@r2wn8Ba_>d?mLp
zo&?`Lnwsd*<!rtOxE{z!oRZa?oaxTbh#(PlHKi*#F`-DZ7>y1@_xHgHX{{@X6NOwt
zPboRI9RkuiX$6=}^tuIYX)hg_Ju<hcD(o_k*M#<RX9cJ;HDT+W&38L)cg*+Br>i>-
zRfI$4XiexW$11`eb7WZvl?G-9%F(%j?}i?1SriVMpW3q0;n~CGFK!(*PcF0WtEVoX
zx)v+%sRVb-9elw4#zt2mFj57Wh`WA@iDsbE<SaNp0iuKqlx_eT1om()h{lYeuQBM@
zWp>u-*U>351~x;w(+E&{U6?xX%3%W+v4o2*op-#g*A@(B?Mf6`J?Q8fYzL44drUO|
z^!9baAURJV_`-zs2&+;HwS`WtbfOyoKn7D9lrX2Kk_Dxp5iVEA${E4|_!5)E2i4bS
z#7t^RChmH@37e2oUs_d-aMq!!@4w-b_;R8Ra809UV1Z2y0Y&_YcqU`RNZkn%D%B=o
zGEvPRxG{8nXwe^j!iJyt!!=<Gt@o`%=2&g-{`u~2qf5dr0Lt8_i^4}gPnahGIp)~1
z&|y{o()=e?K*ZQGE8L7#*d4V{doA=qEwl}OfAJjWUJ0PUX7jB29t2CkzcCu+?*>qm
zPzn{_(b1C7(Z9z{9c7*Vwbpymo<^hw(EtiwE4i`OCmARtl3atJ-_&{5dns6nlicsf
z#Nz;B!%UjM2QX{y*huoel}YpEvG<fj@5rLji#N=IYdR0Ekp=DjNaFuX7LxCOs*I;8
z6Hg-(ui=GE{4^5-!Q~2!N7$rOR-0HEawNkx;T?ttfRpr@yiEMMtm$GRuE}Dr^)|eq
zbxk3_P=ujPU(RdlZV)wV_BAv8jgTw9IFTMZksPA!akI&Rh+FNVKHa*U(-f6>Cg8cz
z`}^QB7o@m#6NxvI%31F~geM;Ru^`NJFFYmI%hL-?pTqP4)9*0-z#MRx0~+mOjR&TF
z@7wHMuU-C+L1{nywPl!0^sJ@L9DN-?zSbMz>*1&Edlx=@wC~}*MSggRKT+XNRQXZ!
z*q<#O<(=Os=IFDo-R9`EvlX_pZnE|I)-o>l&0SasJ?eVcwa5=G@go&}q{^S%zzPE0
zym*JZ8@wG{<hz&n{tDk;<)a&0JZ<k@kRN3qW*7O9CH{1UKV9X|tZTC3MFGJaw;E0a
zk4FMl3Dj+{U(#CdrQI2L`wQ^c!r|MLO4|`}rBgcLp)CU*rt_-RZHfDWRXnR&Dm_2q
zua`+oDjDe>vLe;b+dG(5q(VkMst$u5z0KN1m{wdE<L4;wI|}}R!q2ehYUkz76()cW
zLb98LQeZaliU)4hg_wXPe;E$o%{QZ^!P&tT1mt|^r|`Y-DkWF<A{=}b=*Gg!NsL;z
MRa>@S_FFmp1BypSg8%>k

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_560359.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_560359.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..84fc193e35dffef750753163edcd540c8e7c805b
GIT binary patch
literal 2851
zcmb_dU1%Fe5Z;yUN2edlKXqI?a+8{rq7>VSe?kkUcJt>rX`F|o1Qh5Y>&~)dNhj`3
ztsPEqDS^bKV4FTzg+km?XwnqgfFXTr-un{8rWRWl0_jWMoH%{yQ)f?i=SymwK6H`x
zW@dMGW_P}s`85&=A{adr-%s7-5qeA+XRtQ0wF1Nvl8}URC{h371h#lz-k)GFl5y5L
z$5E|+C7;Y>!!ODxH|dl7SD8EZLV}k95+kE*<G*)G?9TE@M&hor3BmP=zlst;ACiOa
zsi9dM7oN}~$4T($hv$x+5zmh$PNW!*6?#KI{I_D5-cX0RKC(WC+Wt!Tj=f%H494(Z
z2JJFyupTY%*|wsD4gVecw96nXa|UPlra@BXJ(}FM9fvZI!BGu^|H0>+P!8zMGRg*A
z(j~GXmvjju;QB3iEbb5&1KSn_%O-sp7#Pi>xPM%wmxyD+<dfQToF_g#M}kFFNvp}c
zn2`vVRFj3YOqiUKl;|#fiukomfv}pcsB%0=*cq{?t0btD^kPY`(*;q^$$7b;YbrHI
z{6#n_G?7zM)1sy)Rh{t4<fJCUIt>=VGlWxRt(4O>3b_65`1@S%r;0kQ6_Y8scPg2h
z2K!2(JDG;Fdo?xHtIPRfFL1r!lQ=D_1v%GKoE1SL>S{(;3Svr;WO4Awq5i@5V1-2M
zo5aadA*E-Og1QF`(l}`)m`wD%0fi#--E-X)yc+B<kJXx6E5T}WmwBev(EioYn`2*&
zEhlevti}ea4Fl$AE!4b_sD}2L$2S7Od47&xU@QD$bXi&pykmZ_5sA)UoVz%GY3@>`
z>Bh(A$qk0PcIwKh>xs(S)ySL6M}A^{V+OatFj8A!B3%6yQ(mA_=PWos1Y!vpDC+_m
z1om(eMDv|SpJCWzhuK-DUuRF*XJE5ccM1W@?g&!{UIlF6GL~@JuM5s;JCy~)x1ADY
zMvpjq4Q3Lz0|UUvbPvGZPACkL^Av<nOjwUID%DXN=oF<By#hcolF=ZD1wE54DJ6}t
zg;HM55f<Q=nj%4nzdkGGGSf2Q>JcYQO3Hj<#Wl`a&#J!u!kHvk5N(KS8hr%|ZfYw~
zB$P_#ayF3EE|5^EmW9bgwNQ9|cy4$t6nntL9)x1Grsk!##kMcn&C|652bae`|7bnZ
zS&ej7l53IuKXc~ETGMOh>5ZngrM-)LD+vHi(*W>H%R*w|Y?bM%HAHJI?X{Lp`28iY
zEVmg(;b!x!+6LxQ@OOs`fgS+H63U?RE2>%=s`@wBQ&o1TVcYd53q9iH;erKkhuzq&
zl|Be1lKexU=BYkAbqhvfCGHiT@D3z)^~3`}fSR{zBPsBbC*B0Iua-uy@WQRfyL!QT
z-h*|$p!FX~!hi8X3jR-#;XR)4t|tK_0G@=XCkBG_3XjK`v=d#M*c^5wBQ_BjfhNF8
z`fO1qAzjvVF_qM0@vzk&p3t~v5MU_oqlI5CYU%+Hd3W}CnSR&g<}Z$=`;H}tXuR)L
z8HjUgCq0wX<$|WDgr9_#qxbhgI+vuRm5U^h%M`3$5Elq<Hw@yNISlQ@>OO~o>2sJq
zVEP@VAD97$8PI4YbDK;(^Be73Z>Rseu;~!|wGEg|^r)fH9DN=}!RUN!F7|NG!Iih}
zb>Hn?6GqmB6IJ2FsxWFE{j;IH(se^IM;~<_Fh{RLns?My-k5u%f-8N?7gk#Db>8h<
z6NcA?<5l7Ks&H}_Eikk&@h$sZ<m<?q(6cV|SB3snVQ_bihkJTf<a_zM`8DDAx-eE1
z##V(hJF093P`Je$w+c=ikH^DS2-JOWUlOfX)1Dmk{}MD@czl~uX*nYPY(^&n6lTD~
zOi{J!E#WR$!Ly>J()S~wdYHttl9O&D%ToQl14DU5D&^$&)e+c7vss&fY15A}evHDu
zqsSj9_6YOWI<9nV`oj1KINQ{+6kZHJ6M)<DBVX8(KaGWP^TOcL(BjZ00`gYtkFnda
cElO@3L^$#++=E-5PGJ<?x7x7(O33oz9|zb)=l}o!

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_794865.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_794865.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2ce83d80cc0852eb26eb1263b18afc46cdc48218
GIT binary patch
literal 2940
zcmb_eU1$_n6ux)<XMd7(qtV2qreZByNz(kaT7pK6iK#V0^=XkV<IW`6&Fl{|vuz?1
z7$Kmk4~dkL2!d%T)Yd*25Yj&BV@n^}bwd+I3xdA*7EKGKPd#^bW-=`y=|eB<z2}^J
z&(GZR-E;P*Xf%Xid|3U>=wTkAr-bna@XlEO1(rD^BN?kGQCV>UJ3N)86AVTQ&Ny~l
z4R?_#g~>$zDI=UrZ!RBZWM+!F<0>S0S(I4?WokCHAj;h4d&8W}PqB%RAFnWl5@8A{
zVc&9O0>?woiP<4LluIhAl2vksZikM)fA+-b<hjAb$rKat$^uQpZ@m$dn=oLmj11*b
z8>@`(xcifg$(Zyd(4J&XHlP)>?JCOHr0=-aE`e;4GdYtQ1IZ*G(BwA!c$A4uj%b+t
zx0GjLQZT%2lo5Q=Co*B5^a)e&;}!!RH_4xgU5}#UliUmpj3!W=9@5B1#Iem}C4DT;
z+mxZ&p@Nnl(WGoLE!&)=Nx2clX4JeSlT*g1P3!5L&FV&8Q{o|;9Zwbv%?{;@MxkgB
zS|ctra%(nS02|?pYCbiV)D1~9Y(76ctSg4Dk-M?+xQ!=t0>);4{B^eN<GePe7o?QZ
zHY%mYz-K<!B8@=O+jK3}W+>T08*pt9M{-Qja*Enom`H*oX=rI9pG&6lvXXq~aMz)?
zyJ5$!t{h4Z7jr2iozH1?;E=o*U5Cj+&q9%zmg$yxTn;r@Cst!S=R>8~KI`;qRsGH5
zw+3$vE=ac<%8gy6sxE6_H5{8wl)`(hzQ;mnhM(qV*?InY^@6-C9JG$PvYGI7c=p(}
zDiAQ-l~b2bT}{ltQHs8{(0;q?SLUsCaEr8Bm~2i{jG~rH1))i<#sRPe#1&=^nJD9f
z7)0*y9>^z*;U*QK%qCzpkq;H>Dl?2_JS9xhhF36<N!No#046ofm>6K`+Q1+=M?jJa
zIw!A-M819qrqA$p?`s;HP>F~G5ADMkj8a1mK;o3mRdQxCDLMTS@Jv<#ppXyJ$(=M?
z+D=$(p+}Xn7iH<lrKXgms$SlE09ul&A8GZr$zgprOn+MFX5FnlH})(f?(Vp&mfBC0
z>-$Q(`?X!L8OIg(jLqhXSw*#3Kyzx;4gs``iKLna#1N3gStm;sFmn}%+sufTmMamG
z%OJq*tpphkgr@C>y%_xT6EHzEtFOf7c3t1~X}$H{<7jLp+Ej`*%}eEIv(^77+z)VK
zYG?aOO#P}Lt_oGFLTt6R=?{@*xwQz2#H=$;;3=@>4<9G3a8q+AjV8A#b|a9AFL0pP
zY=V}JvXt==;(J6M<|eTrdQx+vgi<C2>85*ND^Qd+Yc`C`%G@@Q@E#JkjD!wELi<Q3
z#T?1Pzaj~~GB^AYv`rL#ncgxAHV_5tM?u;GlEwcLg&g{yGQ$TV;r&PiQ-DaqBoY(B
z1B?vCnGr98F0pphlk~cT&<nkRm5qslVuuYyH<BqySCZ{c+jvg$nnr*jc(%|Fl!C4u
z08#K{N090CU9R2tJU#F{c|^^Fph{Pq)0&A*&QNlCUbFdO=tM?m2h@wAEIE(N7Swdk
zX%}(P<~2nxs_^fC8gGYY<20pqU^+ae1DH;a=>(?BW4d$#Y4V(%QF+oe?pOOIM|&3z
z9fY6$7$yrnsj9ICevhC~^-SY*<HNc)@4dd%ve>dL_O6I0OXA70IA9%rR#iX0?^@m(
zc+#}r8n}9<#57b?UY&k*9?y3yoWHkoscErkSv<NT_LaoGve>_c7C4%{_$B*Q^z-Pl
z*t#Nimc-7o*uAyJ!@Aac%2IYQyDavth=V0@uq>Y5RAo&-ky>lWt(4CZl>d0tNrScr
zzS*v>l<Za&{u&gaFGB)cO5@2sok<(En9An>6XONVsiZb{zLG#Xoim)YITvY%EBQ)}
z<W>1=<hb+-el{-`Rpp4*2R2Cua=P^zjWK?TB9Bn?H`KVsAxgN?aJgZP;&J=kj-{T(
zo;3vI4<Gz|;l~Rv3As)qD&p+F*b&09+3vZX>u?Cj+vl9+yYBlv-}kH&$@&3=qc0<^
Txc0>;M%8=ERn3>fPEdaXe|lHM

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_834634.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_834634.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fbd4ee0fcecef55a832aa7d10aa52bc6ae580d6d
GIT binary patch
literal 2862
zcmb_eO>7fK6rR~1d)I#nP6;F=kkZoDt&)(~RH%v|kdTm4!U0acxQln~*jfK*cikpv
zEiF<cNI4`?RmDh1O{+?!r3a9ZIF@@4m2uQq3zd-Qg_|K%s(R|1wRf{^qojw9<eB&0
z?0fIqec!zCPr;xM!T4GGerC{%&@-aggKY_$Yapy55s6qv@#c!-*wU#S9cM6-aMp@r
zyEa#ml9+7Z?>3^PD3M-Z?zA@IUePNu63Vv!`$>qvrx=l4VB<a~zh?o({S=b?PK3Zb
zj&RS3`?Tph{n3T7bBT*n@iR%r6_LCR4ZqDEOx{L=xjC|wEp4qLzSG(-GdiQwSHQc>
z>a5Gl9lPZyVx7LzigpETWsmOBsadd;y)IABRvuf@k?tWLy7vdlj!@<_dmCjrM|6a&
z-w_=_=N#O;E8{jb&~YmxZ{;Lk1_nm+C_+yw<Rv25WO9N!8}XWyCY!#ZQb;R8E|C#U
zkDv(ov}7`JK@iDP+Kfr7nY_uWT0xN_K9ikG6g9>46-rvMq&4MyLXxGNl-E>+q%-Lv
zgz{gO3(47pstJl_dJCzPD#1P}mWk&~Jg*X7^*Q6u3xl5)lv%YXB&ER_Avp`F3;BK_
z4PggWB{`@`x#A#bg8(NnD=B$N9w^Qyz>?6Ej8@1ek_Ayp9FNA{kH%ofY->K0NR{$Q
zEmO!VosbZY0#Zvb8R%6A`GZUSi~SW`^K~0z_3++`uNppVoU4brZk_&e>gLp%aJ#$K
z6RU<|#$??eUXEA&hm7$joNvjy=v`(j-j%jBah-e5IMuQ(`4|1mr*4G6z<92my?XX~
zyz+K6`1;z=?bt8O(M?E<ln$7ZZf+9ZSPV8mxW=p^9c3LBgQ+#_Q}G$2wW^9xb{n?p
z$l(fgok?L4FK}gABd=}^o$i7am`N=%ItE_0VqmabBrHj~laq=O#GA)q`U3BEz!tF%
z?Sv$->7K$6l$y4v5ur>^vsxyT6f>WI&g3MZNE<k)<eT&v%3fGZZbTMxmqp>kmENQv
z%XY;_fK-C4o*1yVyNTm|nEo)(t<EnG+&r)rzx&!<xjHmf>l&}_pHTL}W&}6WGbWoa
z<s{i;fzHVp(+8x|<`Z%TxI*X=VXf*kY3ylo++@;9Mr<M^AA?YKv<cGhf~LFydnA`S
z1{0vE?+LH&TiN${m+|3~V0a_gTMhPBgj%rAn0V};02(nJ%i~q1tIqLtE>!2j^^V@(
zd6xAw0w@qR&Rf8f5X%`3PX^#it)dJn@6zqkP>QdytJ`eDmaV>&br|AgL^kKjSmSN0
zzSTo1oq}@HBe3P_O55ES(CbCdE=asK6L&;HyO7Wh(@8f+BKHp@?o-x+pGLc&aQgI)
zC|DN?)<Hq;1tjwS1%>GQpDN>ZA@Mp$IGqC|eu6|tZ~z0-5hiU{uq8B3+LqClz>UJ?
zz>3;@Q8N9Sq-u$zph}4$>)v=y>iQf3hv3-4g&-AG<p`MEPY%14sFSksqn+uYoyiv3
zAG%#)5sz|+#Pn!VUM(o5Hw9Ob79ECuQ4$5~keQsE$y*migg3p4q?Tk&HL1BFxMr+d
zX$X{ITNwr=YAaDtVzv@f38l$#wnp<vx3}KfX*tRV@X%5CsZU@s(9=-6G5IQhd~HiT
zi#?Az-@Sk2LI1t}b$)b%KU3w;)c8r`^lzcA%HbOYWAbV5o5tkz^Hrw1>2h%KU<Fr(
z*Dl@P`=Iw;?>c{SgCDQ*<28O_2QNspeEA#p+u&Ehb$(!jk5>6;jX$=t$D_`H`_hBl
zz1%uKzQIpb`KcOzZd;cIhXNhOwB0G+f%l9AtuiR2y_#*!mOUWDe}fX-$WVZmq>z?m
z(%Fn=^2tITI5AgLtWIirE;S2CXY!g=HtR#0{${-r>4GeNhpd!#!_O7Ok}RE2NdF`^
zkoqx94H{$o3<Vye;IF8s;XxF4t@~<sg9_jwz`dtqHLwzR$%D2@BPw9oUmWz|@ba<M
kk(H4K0`d06O|ophg>dj?U;uZ#n8B#+P%YGV)o&sA3;N_qR{#J2

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_931009.cpython-312.pyc b/src/temp/gen/__pycache__/sin_kernel.py_gen_triton_code_931009.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..9b311f64ebf02ebafb9a4264c82cb91f1cb1639a
GIT binary patch
literal 2862
zcmb_eO>7fK6rR~1d)I#nP6;F=kkZo1t@0nFB1I5LNJuH+04HDE#k+Rwtbeq-ZWFXt
zH&P@>IV4e4#Ym{6Ri)C>14u|5%e^P#sEHOTA<+vrL#R~s)Hl1{&9;q_9y*d|-g~p}
zy>It@^Tt1i!vO^2tN9<MKl3B>oG8v<8^YEa2&+g$B9>9yUU3{-I+dg23`P>pT5%j#
zdle~($%g)JBU*|Q=>_I)V<YYt{URfwZ1caLga~|!5!nSc9&q#f7EnA$At~ra2+iRb
z_ky@jnSnDOT^v21xHK6*n`Ar@$=lHI+v>pNZ8Vtek)<4Idlm8B#(tU68J)fg-ep#2
zJzn0}4M!2{^xa0Zt6(epbe~SmfTisBc>1>UIFgQZAMw!rKT=MFGN(D)D9gE`D`bPN
z=n6XL;^sXWcc_7m8yR^kC;2ikFq%U#dP*TL5yK{v6V#cQ-=s9z3>1|@S`l)IjA;4<
zMaZWmlaUL8NS@NBO<K+5O;*(kiWCc&>};Z_DQ2Kh(uyU`mh%ZomU2>FQx%fVq>B(L
zcttKGXA-I=D4OXnq*AH``=nSVo;C5DN_f@fjz2H<ep*mw)S{4-dZ&ft45TjPyM;7_
z?NyazuO{V+y`c31oWzWz<R!VMIF|rRLQ^tYA)iPVL@9A%u)nYG1nihi_CtwODWB9b
zg}l-V3E?OpwFHxaUPn+cywtteUBR_LyD_>M-Cqe*qeqSNn~}C#XKqj4oLm#`wAVU@
zs*xdMVlx<Bj#q<6jIpO&V9CGeUuG-*m8LauoqOLn-LNeM7lX^EZ$!Yr_^zFsKX*M|
zdAAyVbFKf*&@W8i79>VW3rtBbHwkYn1{)w;V^)!lvM!6k)ELgG_?*!iRYfSf16y_E
za)r9iq_Bt=xH7GgSGR^vx4{a`q!t++11}pfFjy`TmL$E&NyP}_tq)-O67O}u7O@WP
zgd}k2p2856nzE=7qfDP&Et5%#nNL7xauQIa2^>`NO}Y$aKP)CUEDO0SqHywRXHt-5
zr{cpvDnV9H_Bh+^#PJ|Ze;DXi>+M4~53R-Ty>U;j_K()u#;OO$l>@LD!*+VcWb>t*
zB%3VIIXP_xfK=LCLe2nJ2t8t~RUMngKAYnvlU6dKjgWi{LfH`;WY7amc?<SPE_D<p
zK(o0ox_V&cz!z=Chfl-Njc{i*+*uK7;VxtRNpKu!#I!7rRhhO;j^E@Wn_P6WrSo^5
zWqtJ!3Pp_z7Vsp*a)-;49{5tLD1*v-bh|W^;v4MgHaoCoyDw#3hPWA#!?`lnc*m-5
z_fSfwpxpE@Y<arUPB#YhdeOHB62HU5U6IfpB(%$P(#?^`{R4^jlr`X|(H<z=KD{dn
z)`Nm|QILB9iTr;-AqM`Z%J@A<{4Nqs=Kx8NAkh&Vz|d5TNjnv62=!BrWuzf+BXBve
zqBd8Q%%CQzS|TZ^Qlj6wH(rpsW)N@)jxAgWQc+cofyw*ifL9rGQ`UcSGCguKIYRRz
zugg%(ryL<MeVUY43ySGa!BwOU4nV&siGp>=Ois?^t&1YYn|?)7OR}b#)NDUoGuExt
z56Xa}41hA|D1)F3Im(bqC{2#DHS8nZ+<0rZ<tQiMp+5MjPhm39vq-Zs@j8S8O-mh%
z9gkbzdvNSw_x<j5eq@6`TjkHz_zC08Z;`gj(HjM0;#ue0#>DjtRi@o`IlOqdf-3`S
zmmlnZ*m=Kmoj<j~k5&1x8b7{^7bIG~@-6#a`0MaG-?PCFR{6mie|&e3$E`gNq=&it
zxpjVQgP*MOlQsVQjxKc$g<6cMMyGr+0`D0MTV+s4do`Qvmfa)6e}fX-$WVZWq>z?m
z(%Fn=^2tITI5AsPtWIkBF53m9GkMJ_oAn{hpk1#-x*&_+BP*rT@N)&RBugh1(m%-!
zq<#!joyHhHN1-Pu{446H`w+!lYoBkgQz6_Bxc9ZJhE_tac+j?JM1?H-%fkU2T|T}#
kyfR!zAl|vOMV7615Dvcz_28D5(-<`!sYSZxgBF6n0L`OGiU0rr

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_108037.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_108037.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cacad4998643b2e16763063249fa2aba5849eb5e
GIT binary patch
literal 5497
zcmbUlYfM|$`Cj|lzJBt?yaOQ+-0~<*R??Lv&_YO>KugonhIREWzSqRy2f6o>6z^EN
zsZzymCt=o1IMt*&Ql+{LQfdDzlP2w<N$a#9<A$vB?lLJ_^M`+|bkf#e`_8?-#(-10
zUg7ijUgvzTbH2l$oK717-#-H%UigcXAU?+v{j=r<TVKIonP3T)3=)%CPfn8R+z>KO
zQY68VGpZb&RqI&;N6k2P!tjhWJ_JrZ1a2x0_tUKTDs?Njz@&w>aKub$k@e`}a6iRb
zuTqoNyk@qm#H7tYaJIZm`vU2)Z(xyQisR|C&pmU-d+zk)uy=IFY$xuFVm*D%J3KKw
z<~`#p+zt(5jPTp)H(`T{B$kW68H3grwk)|~xRs-bl@`!ag;d%Y8Ij{wPDZS3A6g1I
z^R(rt43$S=H?ay-iYlTYBUXtjQJD&>5-s{#Kxaf%$bsQeaCKfnH9$*Ib<_-SAdb0J
zIWPklmR5t@8dt%tupM@NEV-?LDyJ6JASYgJU%tFHDqr2c^sfBg>k)x!!TH1+2A1#}
zYGF^vjMqf<7>eOJs72Kq@ah^3h}0+w_-K`{ZWo_*2VY~s-io9Pav-PQAm%MoEOl0l
z`Q0~(B|0ff7Dz4@A10L7TIU}ke)tji=Kv}Z?C1b;srz?f{g7$4jv)9)3uG2Xac)u6
zkdMyheJC6Alr7=2$fU1^<0y7;AKr#NzBo7wam7+Ardv3d;EV0M{vL1bmC=Hl3U*Si
zNiJ+rGiuRo7lorT)`S|63u%#o=MAV4=4u?M_{N`nOcAJQrm9eiHb#b->b=mJn!T{R
z<yyaG9v%9YdDMms=+Lg*u<6l^+IGdcUB|@Q_i!1pzxHrY7#fB1Eq1uT?htpoKh%y|
z(cu-d?roA-AUu{a9@q&FsZh*o0RegwD=y4&(>k}upim)3m{m*>@dC$tNFFDg$E6s=
zpkkZjBhx$+@&;Ii^09$SiZK)jD`tjg!qc2$igJ8JP%Qpngb|NCu9!411yfcrvJnx4
zL=+0Ir`Wh47vjRAS6om`f*9dBPlsY+ymKP2n5MMOr*`D1LXIgUTn>WB2UyO_gtmvX
z`QcQ-Fr0__wrPD~9>+b8)0~I1is0d}B^2WvC}R!JhrBTG0=Yg6E2a7{5cW><k@-1=
zRy(Y|-5=luF~{T3z(OF(fdrE#NbSOkCF1uBc+c8k3e2TKX2EP&KS438>I#aT@%iRM
z^Faozp^&o*$tdKMVxRT$T!;yT1L0|f^yS2WUYa}~$W!eEa(rIwIiUm8YW{}bS1<Hj
zj_|X>9OL79E-=1XM!XOScQMo8njV4o^@v<(t_Nm4V0$qVh80BEV)xvF7l7Uz&=&!>
z^ged%u_JweQJfl)cb4PBT#!Ej`@#32unM6k5nomkcIRSOqAN9i*LFa9=3Z&}vSrDV
zB2)eAr5)1g-Se!wIsK&U?p&iPvnAzg)$MXgyL2jBUY9yAm$yr2?p0JL7t$^1+10ah
z`+$6KV7+2cI-7O4Q%BMba($QV=$3}F&eFAtR@vE_ambFN((rv(MKUP64!-xo`{!?-
z&s<#XTyHxeyG}?W*@t58IZGDLC(b7?raIT1hozJEo#n~tcbIf#YFe&t&(zA*kFQSL
z9{OF&?U9eYzgdvK^SoUByzCs8PG*79|IT=tO1-oc$ynv;-qjI}P(C^Ylt=TF56UZ-
zJC-_9XEU8^^?kqMe;xg0^ltgHpe2aty*{-(y)>O-(hcj?-Jdyo;^g1#m0-BDa!p63
zU#{u9-Fv5|UpJun?UMLl!6Y$wzpfsbJLRTsxvo2YCXY)`WQIOz$&B3euKrkVd-~JX
zyQO0Vtm%ml2Q%Vsbe68T&M#kDx&$K2-bOOr8n<U@SF$r*E0;ea(~rc>JEjTqW)<Oj
zY_o>2RxY{{uH^i3bSe5*cPIFEo$itbzl~3@Wna=PD_6CFX{&l==U(eNp9d$ns(#9(
zDwET)t0`RuzE5Ayh@XsSF3X4eZnwyXpOT&Z(#d<2`P!)~r{WXI@zlg;)S)d1T!McB
zH+|6f@ad_4l`v4t(iMPSvtF|;6Ns46u?0O#swEOx6sML?vyilc<yolk^$PlRvbd~Q
zV68W;F#{?p4P#@5H*I3>iiZ-pNLiDxCTxBK$j2w(t`DF^%FGo?zeZxl;uK=uGR0mr
zSU=vzn$-PKF%xT!nORHB5`KJNX+_>aIcf9`X;zSCFDUJ7dI|748MnqkU)Fw=j?rS7
zt}voiuMkj_8nH#-;wEM)bnJG|=ARP}!ISz*;FGWCFOJ{lH}1n<9KX#^ArtFB2G)U}
z6|4c<30aVN#d#}Nn2`iBo`dUrYy-cL)LJ0wJ{|T&LUW85m<n>uYyhrhArJ`*Pzsn?
z?oz<V@%TmSF>DNAo*`&9aCmLt$O5PY9Y2BrIB=q6-wzA(b8``1<k)7lxbWrQYk<cg
zhmEuqgyv_4{a$kkNCPc>^cu3D>dA*3h{}Bla3ZUwlunN;EI$cK8^^W_0IZvKdGRjb
z^cWRtboj+Vz7ZyT6Ep(WuvwD$<IpQ~e~<}HvCQ#kP3{8h4@P`UP&nSLV@_kHZfO1^
z5kIefxBf<bdOSmAUX?rg*K5D`d-EUczqNll_^G(|;*|WHZ+(E3YgxI*&kq30Ml&=X
z^Y-=%>Jzmdxy<l$f?~t<h#<n{EO=~CHC<q!kTOBF;Jcuh;GPy2_-8<n>aAQA*82pH
zJ+Ig%nBY7&%<~amy^j^MR!n*9+h-ep05d;{8?3xmC_RTqW6&tnG*n*&2C@S%Uu6so
zXofOt=HXug<T3aON5J?0m58j}vDlaBOZFzdn<{(PeZ!qDyHR(?-nvE|Uu!$Q4z0a4
zM{{LJ8k8>XnB1eCi}r*aj$|@<GTr<Bv75(Mdw<dQao=6~DY!Q*^tH=ZE?;k3?po@)
zV>ys*dsL<m#vRFEwyHXA%T`t;tXZpV(VcK#A6_0^8ogs}$+mUvp?Tn{S*z__cXh4N
zT@UPjY3Kn}mOLa=?ksJM_r{s+ZjnyV$+EX#L(4BOy_{m+{sG{=DX^*~i~ro&ipnIv
z^h9cW>8WgaeYT?U-)@J=yje#$oYE;ZEPP<V{D&)6?3S%8G|NPQh(TVw0+1LPGsKKv
zpA~S#!Hc}$g<RxPU=8p_#w)-VqxO+!K*s+|o~htJB5+9QxfwGfGvq7P4{IU<a?~{D
zF>VkLGwOlDp9eU+H0D{xV^G6d4RFOSa!`Bw7y+tI55<pTD*V`B!~8iItI_ANC>EX*
z=7XZ31+5z0IJFBR9tXRCYtvjHYeB4u&qea9fW@yPfrUmQ?z>8*k^8RtD<e2c<1Jr0
z2&-#5INxh~zw2h#ZS!6Fgf#e|Fl={WT=9#^mbV-by^T%MNPJYL>NaV@Q6Y_~uJ<@p
zt@vkQQKdvXsk(#k%9@AlS7?32<I7Po&IClo>VqR&<X)T86Z}Ou#v$8rCh}Mb#jcsd
zI~@tK9}wy?`so&mu=7FgIPV8Kd{_%fXf}-`Nq$Z^{!TdmK{RZd2?Kqt?n>RJp^I$W
zbPyF)%biP|n@(-k)B92IgP=Y;LynSv?)+m8>mo|a7f}LzQ3AAEM#A9GWc-M1CY^C^
pF_;K$5-?27zl(05Ej-+Mfh0)h7miA@;$KIJlDfA-SM2JJ{|C=+uYCXj

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_12912.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_12912.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..f1baffb45df85819a35721f9d18bfb97c97bfa91
GIT binary patch
literal 5241
zcmbUkYi!%b`AAVOi<B+D<X0R!&P$mebDGv$n<jDV#7UhvahrCHmsO)h%9gE%LsCht
zQ5Z91h|~_Symqis466bZsFvi1yB})?3|Kb|Sg`GfIR~A<Wq^U^PyV@e2W<Pb??_RW
z9XsxNw(jnG-hGd|`}h}zsX)+v{li-mK^mdYFkm*F0>EkmfzUkS5J!a3s4)_wgbtGt
z%P2)4o|rVbO=%dNh@&}@rzS!3#>QE;z*Ae`t()V64$gMXdb_B8)Xp)Sokx>Z8`ndK
zb8LZkZjKMyxQc7mQD@0+*EKX+K_b4Qw3=&%@VOu1rG_>7h0|wW9P+<%YV^4O%sOa2
zZAhaBUq1Wlxguwve5Vf3WP#u6Un%Ty3H)xfNz$CHjT~{iNKaOkaf0N=CR=3sc2Psp
zvkfmLGbP??xl*o9SP@Fr$W?Mp0(2y6<yyH?$JI%8b0yg$*CikW<jRt4y<7(}^$8n7
z31CZlbqxRk4(n-<y)upUl<f!GzoBu&+TL|NjdFv`d?mS(9lBi8w(Gb{dvBJJ+z4?;
zKPEX8BpYE*vJI~(H)AZu7qNDX#rpL%T4ciDD3f#Oa!niLoa^Lvl<jSkb0pI;6C|aQ
zXEr-ecgWK2Tct{ql_SbDZ<ZNWxn#8|KY+gX1BlPgGRg8BEvlAV9`l7&-YL6vyTFDi
zh%slmL*2&t3@zEVjlLa^dG5*j+U3?Vjn&2~<-Ob{x0^O47}!B8?Aa|F5yNncyaQl8
zK01BJPm&apTPN$vwHR|5P1Zk-oosj<S2~lszGi-Re9ipcEt7JE+_64u%`B5$^6vE+
zXi}1UHp<8r9J`JDGKH}TxN(wu%lzK-xCi7t@-BJr9jh660?i<wZCC(t<RdgIC(TUr
z<EEUC)Tjt6PHEPdG{Fl#LU3X}w?;}~tzue;jSFnVAL2ABz=bYrmPjb7*;s*%j`Nx|
z!3!}_vj@X5R(k57W;M_hfShLGViG8cX%t>htKh?YgpW#oX-2b(QcU1|`!p--pOys8
zI%W(3eIU+g#IQyTX--iRLLBdBBWu&C(sZnB8ZBW1YrKJ|fOB8K$4-D-0ts;WA<Z%k
z#yF$#h#w|?U^k~xt;(E+qW*Cq7N6D}`hd-M1w(=;6=i4xErt?2Xs{ZJ^dYL*W5J+^
z_iRkYz+F0K3fzY66E&M|uBf@#Kp-B8hgtB3Moei0s}W-w5hzN6DTaywsL)*lq5(e+
zmbecrY5QvJzau?YV#1U-%?9|M2{tgrN)xeY7dsBY=n;iLkHkl&djRSIZ%eT#EFi(A
zx~FISfb<uUffxj$_u#jC4+24B3?Ba!FGTsU@I34WKSkm-$T0<d*??TkY*)G~ODt71
zDK9>#s-Cyc*|S9U@KV)&<<v&F;O)qTRBz8BRa>a6Uaa4%R_;|!7OI=F7u9N?GW4LP
zJ~NYhPW5&#&`UMXE2j&zH~UnsMQ!d<>2BqCfvH-o=}?)DJgw4)l;g|pnoL-A@A}~7
z4=>!jkiWFhxwPk~>OQIr7Ph23U@B)Xq%UMHWjmLceaeYtraCkJ9-FJpj;r;1^Nni#
z!G+iE4*a40?%+rMPiEAo&#Cq2RAxjuQ2@^1dm}k2`<=O1-l^92E({us>Y)MPJXGR*
zSY126e{O&FbiQ-3x$n2a?-IXB+^>EK3<MRu?~cun&y8o<T+32@_oqxxig-Y~X9v@R
znG?DCJavoB+i&h%=)X(cJ*|H0q<ZM2+J0(r<otd5)peY=i2R`^a4tJ)-WBFA&s~Ov
zJnzV=qa)=iINX`eT%%fjKy@5Q+17z++X{o+-(0Ce&e~ab+MS8dC*~4=_jan@&Lu~e
z(*Jdwja_yj=e_0059GaSd#_s8t1`U{r#`XYqyEg^v#ZC>VYe~oz`O3cpR(E7%(&`q
z&3PcGxhr|;S0ni=>b}0a?drbgROYa9;sIs5e)8(c)N7fM>}#J=yH_C@k?=I`p21xo
zbb;bS2vdYS@Y4&u??c93w_Uf-BY0wT()x}g^x}iql%^LZQ~M$D?JvP&YnG)yB0yL9
zYDJYMUFW7u2)K!Dxl0AMu6z9!b?744@s=%V0bN^Alhj*wC`75!er;ttAeC+jUy*v7
z#P{TembRtsK@#lRq(lTP6dW7d9lQAeCCQX61=5`3nj>kI;ORG-Y}I{>plBnpe%KwF
zER{|s7nCui`KWI}FBRfo{gdT4r?1JA+sJQDFUfOG_^Y_%x?S7_fn@R(<fDfl;V%XK
z1x|QRMFX+OG%JP1!h9PSf=5vd#iC-O=~Q$&F14|3k+>+ejqz=PSX2s)$7AslZEQ1I
z?a-Q*wn#{XyE!lc&$^A{FNXrWfFl+teaQfT!&?Kt)i88FBe(m`Nkcjt$H1)S%IXhX
zRBUKzNE1#!8YVxkb%F#q!ZN(}B;y?#kBfja!e`N_Gsn;O3oQT$JD?Ns5o%Ku;V_Jv
z<8YXbjB)IdL__g`IvkD#*syq{+oZgJg}R~pw}O6N|9<n0=G;i0%D<uRKfKiV{2y(9
za{b<Qum7I3cz#Sh8(2EVsg0c45EPDp$fIMpYlF^bS=*ytHuxM+uuQN}!!RMyzZMkD
z3h#DcLbJmADa{D|AglXYe-1U9QM~vZ8?GUt75FrA$gff3P~DW7i{oTG>Bo*4HrotK
zg|k4x_n7E`F#bnD1s6Trm+s5-rk~Av-uK?{<~%o={^sgfq>e1^IkE)3s{`{KO&`7Q
zYFVV7U2J`J33^w{=GbLJ-_-%7U%6DE8T{&8J+8cvB7i?bzSXx#9ayYAutXh5^)1^S
z%FF}WGdq+X%6hW>SzGSXhi~3|bK%m*S3bIOpFWx*9=d|cz(dND*{xFEg2S2WO|fgk
ztRwBnc;0qpM&@6idp*m(^If2QRb-vFp#T5N<FwjV>JiN-C-wLRz&)jgZ!(-bs|D!h
zQ3xd=fiD6kNhHan<;m%bZ=-b|dz*Z=apWCK>2{;G(MQUb|4W~>?6aPdt>z(0+GHCX
zEDE0n8Np$)4*M*R5M;z71yI5WbWo(nIo3xSd5AMob4fgutpQeq^36vHFJT<6(>bVA
z^}4<H89l#zcFivEVmvH~Mo!{9)z9IE1Qv0nS1dh^G&Pne=IZM}eFJ_X2c3eJ-Brrq
zvb*`}AkM8+`<FCwx@TQ!2!EEyocLhRhg~<j?%M7<jw<~R9n6*#cj{86{cRfRjUBDZ
zVCsxYHLW-hU84-^;r9`b@bU2x!#-NKQFswRt<tz)y2J3f5{HUcbC@&1h3S^bkfb@`
zNQ)Bx=Cn{ex#!_VjtRO~1Z<AxG92R{kA=BkB7H&gQi{a5c$hyTu)qhQK;kc;Td@!X
z@fo83ftY`ymK7T!9oL(#Hm%g6T^*m-e1q7tLZh0x`Odk{6$V3Y6RN~el?iz;R9%F=
zz;de=MA9oH%s#(JG!jgTpADzOD+s39`1|q=S)VRgKc+vTS21>VfItNE1zk(je0~U3
MHoYCW>eBcBKe?8G)&Kwi

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_186313.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_186313.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..20fa27342bd3db1391aa667814dbbb2e9f34c7a0
GIT binary patch
literal 5366
zcmbUlTTC3+b!K+<J-e_A?3$;IF@|+{l-P;W#0Aq}W5+f&vFpUt&1%@$#S8nuGlL1_
zt~9P3c{gdr(xhT-Rn109l}+pq(x13hrKVM-TI~-LtaLSXC8XqsKN3=@?N`s8*;y7?
zLYgbM_nzlH_uO;tJ+psvIBW#8)z?0_7IhHBXBg0%y)aqtAPHiD;0TV45F^@1j*u!$
zMGYe~Nd(DpRgW&JjT{xE$C=GI3~`1X@bnIN;|_RJd3?ymnQzhe3JZ^zIR|G6662L+
zEV1r@x0T0-Oq~6eal~5m1#^oSu~9_OR$R?KL;9Snc&Q<U`N7%q&z<pKJUw#4e{K`B
znRZ5D246V;!wWhm-T%_*ivd@Oy=Isj;D3FM#%CeIiD+${(q|hZs=QaACtM|*Ai1?6
z17hwKG$h=+@Y2Xp<gG##sA|?o5Q%E!Le;aNBT<8DP=$)~h}d4WAvf~OLTsRlqO2Er
zK*l?3B8XYwN$gQI00cO!rxxu&4AxU(kENilWZ=jR+f_Yvs1`ZCkz8>fs$Bi9>o|+H
zHy{Gl!RZsPQ5+GXYQY|4!fT=ijK%l@){L=Ozq&>vA~lW@Ig2V+zeUcvNv^5HwlW!p
z7~}|1V$mz*vh6-qw0^Hxp|f&iiRN;VVMN7U>+%D{kADW|vu~RR3=?o}+dN>z*jb3g
zMDw=2t2DHA?{raOe~EQv@)k9sX3lV*zK3%HTB2na{wB146aN9Uw?x9NX({bd3p$|h
zdlqiS#9mm_iL_J2a3g90SUp3P-t^Nsnm~KUYf80fb3}}LwqwWlY{wPzw)I=)z`<{s
z18wNwmZ;Xwv~5dtZk$j%qL6K?lpedtj<!hZl!ULu?{(WffPAPGwcj`DCrc7DgwHg@
zLnskGQZaJk%w%v(m-A5y9c6_H#TXZ_1$iII<0SDp6-taKwn;ud#<Nj>m{aHg7rvnw
zqT!fgVtF<;7F3M0K|U@h=1?Tgiie+2j2fB-kW&m?Tm&U?-U|8@TQCxg24kXMoKcJd
zV1vFxijnnCio9YR)rNpNkmnR~NFmQCRzc*$T+q)(H>MNC>1fF`R>TH2cmpvWhc=Hh
zlZT6h;NgBGczmrYhDq3vH8vIX!^96V`ZT6g>eFz{KgP$WCKZc1U>Dd!VO|gmGK_{6
z!m~lpVAK?;LrgKpLm>ehu1!Y4Wh!O@T!%L)C?<8!f?{U_fvM<Jgawx<B+&6$_}RiZ
zs*tQgLLVq-g8gYK1E5l64JannZ-Q_LcDC;uxBtG-JssyKgh@6K?7qeZCRp)WJl4sM
z!69`Ee4twlMkl)g>V{Jg<1v4f6~WG~$r(Q&{RLzo4hPip^izj>4g*DTXiWZzARh}x
z_&%@*J6-q{#GXWaRY%wzbDgQq483e?l%9KB>0U6;n=@qQ*m7mNbb2eC_qJrivbTGQ
zuFhAumpljMii6Uryt^)QRd)NNGmoo0>6z@avbSrIS+4rNbT-d;Gl#Pca($=FbV(=j
zj>@H~7TM8~V`S!tbYjI>m5#{H{qMf;-j#Q*<gPDvEVuT_&OT`{za!<bvvMw+3ad6c
z+oh8$4tIL&E}N~+jLDvZxmwxt#Ny=#1Al6MF!-VW;~DwM3$o{e>=>3#=7BSGcQ{LD
zUYw8Ttg@$PaZqEFj|>3kks{~k?&^j1`S#4&T*p%V(cklbnEmbSBlq*LK~T~2*6706
z{8)y~HY|I(K6P{_$-KMvZgb{RrcHM5&koD(gSn>`5B!c?Y<s`&!La<DUfI=`H09lU
z?z%Dq8Si{|wqJI)=GrtK`Oq`KbVy@*%sA%;Q-kS~Sx-)Q#2ikN+c9}d)m!|+jrkj3
zg6mBrTUwI#yv3RB$kxj4L$c)%tW^r8OluW{^Sf(q!dgA&OgYn23$M<<`gd=q?Co5(
zbV>a?JNxS>H9u!F)#)+W*_3s`8D^(*;%|m?({kI<2hDQZv$Eru=JG39?+32jK+Y>S
z_sBIpvZH75^vC9h^k3PBX8HI9>~_Zm>EvVDbo<oJQ_0Ke;mqYv=>zK!rUZW!cTeN)
zd(Z_+A9egFspTUFv3%Ql+qOW!qXfvUjU&~PhAc}{%bkgKND1@vP{ivc?@!3`x~{@n
zuUiu|Dyt1s6ZGpgL`hv@;Tb20@lvY`#-*$&TZn=+a5ipffGtxRmJ|k5(wYQm&Unj`
zFqY>Q!4j>N`-s8&<!cblnI;BcMscPX$(a)-&XO<#){09Oz*+!nOITv?fuPYaBtoH}
zHDpx%N<bM%;r$>QY$+CFIv0EzQF;lm1D!0=$z9~j(>LU)UF6Hti}IX_Ga(bla1=5l
z%YDbaDs2}efvAh{1P`s^ZxHp}p7oxN1>(_3Rt%3ug8R5Iyrn`o9uwgCHgUll;XqJ*
zX9LBr8j!??ja9Bkp!)^2+c!@Nf=~-yy=p6|Gl~ZcstPRy0mZ2St@GmwB}9VhhM|qO
z7h9;k7Q7QAeFlX-cj8h%-v9vL2%UgKcb_Ejy)Y`4V-Yqw%CWt(dkQbku}D0?Mugrj
zo$@Re>Vody67fsV+x2(qv%@($_p;o6Y`OOPe>VNa{zv=6{)ghyrBV5OVEH&F*K+cn
z5Puv*R@H7Fp5Z(R6R@#WY{067JDdqV^M>(T3kS7Om}dD&L9yXNK@j1=6nqw_X|A!8
zP!Yj19=N6$;q4S>_~$^IR{m%uQqNQBlc<=q%Eo8ka^Wa8HXw#?z#+$Dd=m&O^ca*t
znh`@-*?HV;c+L)B@x?!WT=O8*1^A`rUj*Wl@Gmq%Q2a+C@^)tKXzFOXC-qFm^|tqp
zH|x4n_ldn_iSAu$?Olf6-csPXIUw~**Ea)Zi!}3?am}4coyoW|{TWmC`g^au^UC7&
zkETDIe#G>_+hGq$11o0B?dhA-Z?!IT&Ub!d-kWc1%DV4fp67G!B$KbMNm}!D^_jrk
zw)x@g^^|SJTc@LIJW1Q<v@3l;roDNKHQAG7H-<S&%93`yVNVY)yfpt(hJEu#K>Mc1
z8gCx|HRo$Qd51IauFqFB{;SquG_5rdj6*u5Mn(W!RcyFk#8I)Hhi(DFBmt>$6)*`h
zK_v`dpBVUt+Vn|T=0@hI`v$#0Ptd#QqmbeM(q}CB@qk7~Jv|d}+d#_F$6!y0fHXA@
z`3$QBL<fHsQ2Z6>pv<4*SRbW^ts20JT?|6e8(;;f^n5fwjJa^7&&BwQSPaLR&#ajF
zpfD8?1uZ;r^s3ptCBy|>e-}bl3s+5jA!c6&Dn1B-gH9q=oR!kxinIRaAdbgm^H&UE
zb<WvS5C$1Cee&Jb_d4I{d|-NH>67|Dw>WmBIFr}Y&2KPL|4L(%G?+Xm({*bWf~k^*
z)T8%NLqk4B-5GxZ7FH^>3#%&vpE*;I;fh6{@%YC$#V{Tg6>9+QUorT~BwxttOK>O0
zdDS00-iTt?T;d;#N4WP1bt(Oli^jRBNU)a=0Uy4zg<nIrW*|xOGlKaC;rJ)futJ(|
z*WIjJqdLgeHHN6FS?HMWSaV>=sY4YQs?;GDhTJ+-g`sL(a(ARUzN`Ug-9S)`s_%=d
z<X+N|49-PTku?IQnW?wY9i&bdjUO=|GV2(-et{%N$CpesS@p#cqN47N=uNx2jsF2Q
C?U+9R

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_284744.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_284744.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..388f22799765a80c4b8e85402941564047c83c23
GIT binary patch
literal 5000
zcmbUkZERE5^*;OAezu<-e<Tk1fD%FgcY!Qz+C(jbGCl&NWY8j7vQF-c-%D`fkMQ0L
zEY|h(*qE^CrZ{V-7&NIys?>BKjqXpWRH<k`CQbV>-hwLYjY&vFllU<yYdUG_{_NcM
z{G5klO4lp<-gD2_z31F>?>X<!KA#6c%iR9$nGqJD&&kAWt}3wl6#$EfM?958W5!60
zQTp7LvX9Xe5~wL%k11-5yiK5|Kx=*D?T^9Jjqwvs-f@w>UR5*Z;++DT3e;;wh<7~(
z&ost^UiU?M%w4n0a}kYsY)J6b*7D9#QSU>t)TqXO|K%U-ABnwsWb9z<*dwz?X(RC_
z%if3=?eJgyBTc+0QzmW7W<qNtPhGFlb4?abkgRXmj@j!~4Y|M*cxmjb@dj}q7s5?A
zlm+Qr7>98n>j0=(HqRU30B+90dE!7#ss%TLOd#t-C<|N3MRW}?!x0=L@`OLv3Nx0>
zEc;>VcMj)7t?gacwgI<d-#3!0*`dp|J#ig>&4PA}@CG<(^m7}JCTwl6E$k#~;&y^1
z_$t<=+XHlcjSfs192Pl7must&b3Y>2Y1vzYyMbBko3P0>=QO$}H*B@tZ<K2>#Zwl|
zjUvN=YgU``2hfjx0_U>{Z^C}E%iL4ztajk1$Qe$PsMx&DVk@=FvVMbGh&%9R-hP9=
zPNE)KZp#z+J8{<|{M~q?MIvNqvG#Zi?lvvU`e22Pu%;gy=SJooxD)33De3giUnn%f
z8>d>VS`6570+IF9+HKtWEhD?<TSoRaY{NZu(dsed3va87Jg-T~ZC@v4Cnvg2f+pB3
zyfwKU7GG~z?*Y6WZ^b)qILy<e&>V_7M@0}vQA%_0^4yFtY05=y8lB>#Y0Z(5&j@0a
z63O+C`ZSxI)I2j{W>Vx*u>`NtaXxWQv!@bi&B=*edQ#9FSwYN5nrkAN;pAtZ(HsVv
zhAFSv`HT!oGF5W_^O{4FGolcUY7Q<oBa512+!*5eKpoSlQH>hW+>$INcp=86*1+i+
zIBo&cHEev1H=Y(r7>nediEwd{W}kuWyVJ9&7yvQgG{LkMFu_DRHYsLiXEa71h{4{8
zgeb{X8P-5ciL3w`9EKu&NNcXl#Dqk)YXIZmARRLejv}T>np3w_(!5+eKAW0Na^MJ!
z0{V1}aB5C+0x_;Sj%yUBQP9V$8o@e4bsSXd-U5+$j0j0luyFG?ZC}08cRnLdOEX+t
z=sUy3r#bmdCcTrJ6w-2^B*yz>AvMznvpzTiIg^GZWZ3SmnYkDsV^w541E=%M(7@op
z08lia!4#Vo#I%qU_rQioUXp$W0jHoZL&)o!-&xpMqLw}F%Km$S(4uR>Ria9}mjgSL
zBlYu2>*hOjbEPSCC$dd#+NK<?gxX7|)zCI&<X$*ZoGZVmw(h#=UJk#Yyj)>hOV5_u
zuIyFW?<fZ=zQCPux9aOI&o0fW+lN$kNI7`lA1)?U|CaY&dH?ja(@SS>_AdAARsDOF
z;mTtv_k2zBrwgZxXG^`yzU|7P`@T?d@+wzuE={VDZA)!x<e8hNZXNhT*RA0XW4Gtj
z=Z>q9<Ern3a;O5F6IV}^>C$TpnI*Rx>AyK_FscIwfODY6`5@H1xMN{Q>E)%~I~{|c
zh@WOZ&fX0jRYo3wivD-T7bh1cOI*2gIkM|BUtgZ81VhC))L>WMSqZk5=&M}GweVDV
z-;(p%Q8n17W3N)BfjaC1);~X77%m<vN0y|!?6Z05-a1T$3BMyQo?AEv%LU)YD$||!
z-e>&9-g287dRk?k2Ibai!MW0c{NG*KfZWaV{(>KbvkTc}W{a}#+c=xJ>@~w>YD*9J
ztfgP|t#_O6IC$6J@++>?T%1(>o612r)bjZy`S&N5&a2x8Z*{5LUsQd&l|%Pv=cU6J
z4(Cr5Pn1r5MsHn(SVZFUq#J}zbBcmIE2iV*IW$`s0KMX40DFnK<i6y&<XuD<O_>~)
zk*D-Zglb6BtCZ;-5dN;Ch_{<n=})P~y54~GE_-q|+)x{#=4_X}ay2g_G}WMbD0m9q
z2^;8#+OEC<wm~&#$@F&Kahc(rm)*Q8NApb1!Mk(LJd=0lJ$dg0&3i5~IhX7;^<tN9
zJAw+!PS%B-ho&HZ*Eil~=HbWCYgIE?{`K;W>1*=#C&)LZ*W?RK!HsF`z|I@q>p{Z~
z3Ss-JD9VmLB&EHcIJ2!s((z1chLaQHNntaeNC{~vkx5ICKb^dAE)f?*^6EWQNQXe~
z;Y$P}-hW6!EnfXf01zRPmPpL4z6ss0=_h?-6zm1ctez~npQx>C1-ekHKuLu$L4h6A
zDA}a(c#GuYF6z+eV+T*}vn0xPK#LvFNn~%E6=>r30MeM<NiH?cb9=HIs>xt?G85;L
z(w<!=<p2@uhVDNK`c35Bjw>DI6HDxJ+jE~dKlOg>y}j=?ULHEBww+WroD%l}U({h)
zSx?b=N<PntGm_>ZDOr*sCrMEk)C_018K^WMVaCsB4oFY(oVXu!=-$?ojpj58hA6vs
z%f(K@GDJF}Upz*-QRp;!5{e7U@@s|@&zOnyC1{5IkeW#f6i)(`=#%~l-G3ES@v`%S
zg~4Kf;e}H0-PS9u<=~a}zk0jx(0lIm>{*81+g;_ka6s9ooPA_+kMYfW3to7lsN$h=
z|NBGNhHmzMH2C4*UFJo2N5c_FZbsJvP#~xrfdrr&{fGCIa^L|SEN)fl)(Yd!_vg8_
zVV)^4#o$|@b@BCu*Gt^nKLpx0MYeQRj9;ju65jal7O%s((vDc4a#%mII9Oe4#HDul
zuU4R2L<y9G55zYBlcRFBoc-%V6rK+FY_k;c4W2aKcEfI#uQ~b&`fS+#f9Z2rKAYj<
zn-?qR#7>NOdN<gF5nLO`Xw)tqgqcVJT!)|tp5?iy%?Q5zfY!XS07YV)lZ04*lopQ@
z9I1o(v`D^P^tgdIc8P*Co0KI{k2gI!$!)VltR7tC38}`Q5q^gHY7CA6bsYW@51oSU
z`vc1GeSgP=VG>{Yt}j{S_OFH2dp+;(ytea}^DeVj+4sO2aCH=a{%o=9Ef(T#<0fS|
ze@vy@R~W>Gl~Loivbt5`QCL)KGM<rLN%#Pmg*&P-CM3eADAd|h30ZT;;bD}8AJ2%@
z3wjbB%Z#Y|LL^3LUc()+$xM>}0O`w^&rK@B&nAUEA~BS_nbI$zTd`9V^*LhyhJ1fV
zohwdcV=lE{XkW4Iq<U6Z6mD7UUFco$8MD6r-z7gtnzIq=81<LlKlOe=sH=8lV-2Y{
zsSe7Q7v__N<O%|?H2W^Tf_3nw<0JM%c9mdP4^xQpeZe+U;eQRFruMf|7rgp*{|A?U
BPIdqQ

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_366643.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_366643.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..4024ed81cad1ed30fa1530cde86d1828eb20ed3d
GIT binary patch
literal 5531
zcmbVQTWl2989uW+d!5<!-Rm1*V{F*SmpV8&2`<<P#w1_|0wuvoyBhC|&DwioW){br
zS!sx<*iBm5Zm7JZtzx7|*#J^ZUqYoyy{J;D`cMx>>1s+Pr10W5H%_HCPyNr#&hBC_
zahfCTx%{^|=Rg1X&v*8(E|(KQsgB<`f7^x77kFS4TduS5HFOpci&!Fv#`KmLBebz8
zWF8|4#1T`P9Ya-bSrbQ2(T~&ch&4ZfPL`%mSXs+u@@CG^n2oh^XsWz~UE34r_R@5)
z>$psgIr1xWUPfb16XKltZ&9;^ms-Q08dd2RPQ3Esao_2e#)f<&kBuJZ9ru?N&CL#d
zGyFF0k=TnOVeqC*Mz7Ga#LXN(QC1`gnwyJcmgt)~3yJb=WJ$@Dm#vV>rHZ%(p+u!r
zCRN74MxsiplFBt&wP@@*0y(o(Ezy`BhuzIvr~zu3R1>!X9j2A2)$G6sXxN%Zs@1iM
zW`(`5sjx(01)7~Y$s@V&*S6KmuSV0W-&Wq8pL>IZq&nDd^kWl?CQS7(C&`MxDK%g!
zrst?OZQa1vzR@TVx<rwlUDK=Iq~~}{uc>HmB~FM$ORfo%nD<Pn({js{pZyLoA6YC>
zWVuv)Sfu=_4gDkNhi}9F>@3nOaf+nIExxcwJ0-WaE?C1f>@jP;Mc%|w4JEN_8+%P#
zJonA^nx!2@7Ay6y6xY%&so7Xl9I{qo2h7<m={ttUjZzbgwf)ifO+QJHNZK(~Q*1@=
zOK7TgD|M=FD=mLATfSp_@BWVQ-71-+-J4?8X+)XSx+(rBgOk{^Mazu$Zi@zqsd30V
ziMArYH*EEQv`1=@+HP5lohQ&N@>)lEP)A-uwXouBl$$j4ye5?lF~YQJiHPSp-b?T}
z33%PANersaC?A>RnUF8Qs-&L{TvW}WKv=ahJQJSeR7;%WBZ6w12u2uj|I?~PCzCK_
zRWlnA!AOM1sY-QnK`z9FMV~mUS_GhS-gec(_@W}OTE_LpuQkMoN{p(+an&J+e1PSA
zOsLSE&UeR)y5T(4Uy${Oc^vvYK6N~#4y2l+unb2y7V<&I2a-lNtd<+yK-f3QM`BUc
zt~Ge!)I@+6#GDSTlZ8N>0}B@2kk*7%TV!HFz|++`<KQTbG7S#HOA}P9wo*Z*7{5Oj
ziUk>Pgi1`S1fvq;D&fy*!YXtVelVeV1yub$yiGzotfcu{m9Jmzo{8|&LX`1y-RBwq
zG$Wpmggco@*oJO__jik2DB2C9Zt$}h34?tR=F}CP^#ReBBl;t-1^W*iIMBNvII2q*
z@=bGmm<#d;VK#Vwg)0zUGWx0#QLeepRA-u4bvDQ^J}9qTv@O`uM7n>qe4qT%=5f~3
zy!4#n=~yAFvt^Ylwe3n-yL>EL*^oY`RJO~<A5_)O&n~qrO)sBN+6R=~1FKbo@`)_%
zN$+23QW`rIx=S9)y2@9oS`}AohF0iadFY|LYCfpAcYpNi$LFq}%UoFQSZzD3xDU(2
z*(Y)yxXR|vrOwS?NO!Ed_R2>ex+>=<KVX)s)00YVd!}BgeR}!qog;s2xifs*_xoAp
znUhNGNyT+aKAHu|i4RUKk?GeKA{mEL+p|2Z3o5-wK(aS4`KYpbao@te^odNzN@L$|
z`QOEV6Te^iGOQ9z^jsZZoLrbpGfPdYwOyaPx|75M+C4X%8lFG8RGT4hFd5tRUCTYo
z7w+^ceZ$KBVWnmGu5h0|{g~hlBGdb1!K}UND!+Jf;Uavd;(bZ6w<f8q-96v2RIgM%
zrP!ZJS|1yxtm_nVe{bE59MyB~lzTq5`1ZovfA@4Mp3YT!mpu4gT#X&}n(i>ArVTt+
z)1$byI?Z(weCw|H8I!J_pH$pCmnvXOmu52JuTN!Wl)Zg-T9my96<5D}^Z{wTa_rKv
z<k|UC>9e1cdo~~*5x*Z-y-=xEo)cqy*pKs{QL3P$!M!@DuQ;zziwLe5gIm<Hga$r{
zk~|HVOz(s6x4jIPtpP{hA;4Dd+AT7L48A6v2g)E#Y%6UsbT!+>Msxi)VRi316DF|r
z1a89gE+yhTsFf)If}2aqnW834F!vHL5U2nuHkVsg<C003OG}7(&{GODVc+o-YfF&u
zv#|CAK>dV`btdfLfo<)%H_rw@k8Y0wd(<X-bz+4f&(fuB{{sEWWWa}ah@>+K-e6sq
z?Fom7<3%fyLyHFlK+}x<1(!Z51z6a;r6=(7PYBqt5`d>jzcjy~Z{9|~G{2xvN*2i~
z*(Ccd_syJ-2qc+LBX8O08h+<!$RX}|DeRAgqKp_A4|2_H0B&<35D5$M#t{bYinp2v
zn?o@{Y#!&D{gJR3n2beY1?CGSm;gPjEO#;B=QND4HUQsRYsM8ms%toM)?}#SRX+#|
zv1l~HiyYgm!I$To{rMLfNZ??`TeJ~`>gT5I-ft;5p!&f!@M#gEDozt%4VM&bGOHbS
zLms2I2?AVX9xb2@ydM45<neRbYgWmTp)-R##%O#aR02*4&9clt53OqN4>F-~mN^u!
z%iX;F!HAy;3WvH3&dXS-3#$Lf=$Ex0HePF7I+Y<aKT`JfuhxJ6Pu4$Ef1vIT-W6BQ
zj4QABR|i<7o>l55_<m6FS_(7M@sAUO96<yCAn4d<hT)@vmjXa`o{4g*D<Jp^Tc=t8
zocPbH7C;H&EI$AybttF9y`BR+ewC=svrI6?4e@-0*U*4!)nS{LE~H?-2`fK?E9`*+
zB;)Y{`QuQj<RpN-B3EG#7GTc6fbKJ^?kWBZaG!>sFacrkUm0a7daf_kH{X+bK3(yl
z=bC4!;#$K!s&$1tw9<BH6>6##%N$M}zE3r+kOx<G9$bZ*YAQ{AsN1`AL>`nc<c#Zs
z2X@ySm7?ITA>d~2`S{uE&o1|T)_1$_zWpFvh&KC`nM*TQ+ZH<)I`7$bWj*ytx~QtD
zO**sHH7Q5d;hgiNJXePnM;1ozIa;!w1}vymSS2s`$X&P6*p<2P>C7iHnZQc@v#ajs
zR_xC`q9)`ckI0JoJqqc`+8xQBBvWYS>?!+v#d|Qz#n%^JPc!eo0laTZtZ7-M@AhY_
zc4X@RU1qmf*Q*ijl8<RY<p-bV3%*S7er{x;T0{YqfK&A*P!dGKlrVqunSulgZ}_4&
zb^fBr+lMoE%bdSp$ZhPIB=i4e&r<Xs3Zy{eWGAeU3=vD>BP1a>;g(Uac@06B@k2o3
z&q4)np%}|}P1<?TPKHW}9J~?yjKKMNyd*!0rSNlz4f7|l8V*>mO||iy5DSWe9_ZS!
zz=@&gsNho~U`U+{em(AW^SR)E1GpR(W1*7KLwC76{LtNaX&47<vgIopIoyR9{iyBZ
z&g-3btoQAQ<-teA(YuM`PF|RAd5?x5-mz02PL3#K!@3>ORr08wPiSpb{4jh}Ez|Q{
zR}kKTF-Rz?-RSWcCaC7AfT%hknFu2HR@BH0XW+_!G=Y7=<3*^H?hfB%B*=b(w9gp1
zF%)5ALGBQbBMzr};ipion+byW0@43Ku79GYbt^L2uQXh0SU2q@+SX}QRkPT!(6R2)
zN8LT220sZJqvON~@wbk@bbN`q8)jspb*(eR9>SI6=7Oo<I)ZLG_Mvo5(z?r*&*<Cq
c2BvO|5r}YoNmmn9|LR3$4ey06QQCC>2dpK$^#A|>

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_391924.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_391924.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5cbb359f176a9798a2c25c0d5c049867f97ddd39
GIT binary patch
literal 6371
zcmbUlZERE5^*;OgD}Mfn<0Rw*a1s)58pr}+5hE)E@&OH`P$(q<>N<W-aN^j>doP5z
z*OHl-u%TL<wNu=7Rl`(?v>+`^lS;Kp&Gu)s`%%A!Ro)w$klH`|OPfyG_G{<9XFE>n
zkg_ZJzH`slJ@?#u&OO(EF_{Vwv{zsG;Nq87guWt!Oe;(S%db%g%^()BlppmeU#gFi
z$Ep!^A59@IH6-iFh$>%J<)w$1)i^R@)$8Etb?};X@Y;3ox^?jSb?}D#_yH?haFxED
zUO=CYEo6;eGz5NH+gN5DylEZ0IX`|t&swf(`V3iLTd$(N0u}NWWUVkxQcl}rVnC0?
z96I*=;cnNdqkSE&<EuuiY26aj^}_Qnp2%?O+Rh$5<$CG3lm>bv1B^S)bo98oB~AP3
z-V+@jd(Ikl0IT7*+^HcaL4fn1v>{anTKTfn9o6kLN7$ajORw-`AgspB?X-??@dms!
zHf4EBumzWdz?yI=w&T(e=m>AZo3KU3l?lXRx#4157J{>hEm_%eTqetC0b3q|J_MZM
ziX0r#R*5SxL$u{srB5r(`LNW=3S>Q-aV0kWAi3;nWVtOH&STE5U@Jy=Gn^6ha}|pQ
zRApcf){;5#R)Qt?G*(BjM87<T15*k|j+|bW+p<Q^uu85f$F@9iju~tkPzhPD<cs+`
z>a6wEf+fSsQaPIQoevGpt~w*%jxOAX{i(q={`mLStHCwcEZYut4wHS{mNP@1$i)u4
zjiv8sZj<v3EnK?+e-+*~WK(!^`&ByX0`(hcabzQ8!}+qDb+~q@ICoA3#zk3<T3ojQ
zM;)%tv8*JIHqgOp@8~lA2${eq)!-#FR?ZR`J8%_@<&z`Rt6uwzM*nBLZ2v#wWd~N_
z0=#{76l6{<HsT$tPjrS7cCMAdYI082@?)A{Ly*V9^|*QiuRfFG(@lAN>cr3B`aAlJ
zPboBsoQ56_CO}R~qTQE$JbX2*FgfZS%*Z=c5<TMPhb2u=xaj3h14n_|?+;G6gn>P~
zofKy#;wDKY_@#nTE;z`!M_fKuqCKqdlB6E-1thJTa|Z^!k|yNkg1n>~@CV((p52m0
zLDMi~CF(S&2uf-;C`cM!2y$L$gQRi0Mg>mN^eZ2a{GpCZRF6b;O9o!xe5}{y9$5j0
zvtWM?7|3EhE4-cnN1}}*0nb5xLL4Mv#F3oMkrc}rNJkQlq#lJ883N-YE&yDhA_E2_
zYX<ZMT!UP2d{olQAL0Y!fRE#av<#!5d0)s28Z?R``4f<I!GQsutV03%!DljN7<@<8
z%u8C?1-xW*dpzSK<9;`INTPr~?2>nfa!XWyS{&A>=<$Fa*=Hc{N%ML523V2fDcXNu
zXq*Ug!~Ce*<88d?_6)m)i^0H7_n<c*H1eFMQSgq8Ho~Y8wnGR8U?Kr5+%-Ds0;DUA
z^aNq2_Uvogx4RiAl1X854STtO*UudWn~3B2J8&8!=({b*Xqws?+nG4|pkQm{@I$L@
zMmMcXP>I$>>yF6Lwc}K2&8$x>ZA{Ykl*N`TsS_=Aks~QvdE&fib4I!!7L~*&XZMSx
zyXKk2qMt^NrI^yh;bir0v2ypkU#vJJGKV7_DU&r>R3n;d<`|J_j&wXS7sdUex%#~q
zZuQ>mog15PSgbuDnh!*}QtMJ4nk-YjvEKMtqG8drJ<|EeWQz~J<({=C2E~%PxiYb2
z_xzcA?SHDe*LBymFe&amA(osFO(!FrDc~G<>*Oq*cxgH~XAn!8=DQR|vAG>Mo3or>
z+w3ztrgtQc%{3$|T0Z7J34IiLV0#Xh2`ZZ2=${#!9!$7rD;G<4eQ9cpQh&2-N)=Zm
z+J94(=$dxTj?FdAVey&$;`aSw@&0IM#+lmLGxK{MSX-iPIhb2#Z=Rh$^}xC>*7kLJ
z6SS{ea#+Y9#h9krW9{+c8{JWA^*~?r1~+qQ`V!bvI43+PZ5H*-QDaJPjyKGfiMD!C
zUmw-38pgCsWyt)arAlP6KehXb6MJV%KPa4QpDPusn#AHJ(bP15bU}BY{>*(}CmuXO
z9BDcM{x%o?(w(r!2SxLi*+SUn*@-#fcPHm2#O*Ejs)%z;t&z?pEi%}r%rSF(d{MtS
z()N(nUORH-Nc2qnWa7-1^tNR<w20eJx>nM)K__WBuQ1L9Jn73EPzaGrpNyA3hW?uI
z8Z(118p@WighgqY5}T!lcR)atJ%?D;lR4jpr_4L*jNH#CO#MK;^piQirx)cbw9iAt
zUN?r-po`ojYZ{@3>FW%X*tEPJ6Rbyr)u3C8>9^54*@q3-t%@`XBoWJPh-Bk6EoO`{
z1H>D7N?^d|DGFCgh_EV9k5&0>RJ3Njt<TQ|78?}KHCE@HSICx;`N~i-7iVM(!Wz~X
z*0M}k$5LTEYYH0z1zD^)jkSagQDYR=&04SO!v!m4D=v^rZUp7DidY6dMnjqBa*pTN
z!c1wl4&9ceQya+Vr?1GXHjvLx&&m%lScA1#$C}`gYlHRZ$is*&B>u|3zd3%+Qx401
zwhGxtWWJI)V9BB9`I`Xiv4Ji6b-^zv3SreL<h1uZCI>y_=(s%U^$1?pvAf;j3yh8n
z4#6AXgPg<N;1~=F4vA`i0#m=j6mlL7c!DFNZo${@_kx~)mvgYb5zyod1{?#RPPr<7
z;t0`>OS}ULGA--9<nwqrD1uRF>+|D6&fFK>ykmk31_mAcMfa!|q>K#?Z^qKc5fFKd
zAniOpNFWkNj~%2V=hc&&j!5_w!Ef0Q-LF&|y|-f&hJR+rfy}&+a;nihi6I7I%*t=Z
z3_q!j2Pkl`x@V;@Bdb*^2#y%zR7>>nj?-;i6%4p)=y;M;9gzrk2)+_M2o+(-o~}Sz
z{Xvi0&p*41V9yceCg}bhK@Y7ZGsbCSqAelJ_J~{eELxj?f9b<l@4mXww7}kfR_yFs
zY&j=d&m}DvlKKl=J4nf8@?+v4XTgej8`O;jq&VaSD3y4nW}I+yqrB4yWv&luKzWBG
z4U}@8i;@PaC}EO2O6DRPo34|aek>P9l2$2pxl%$WLGCoIxpuf3BBknftu^mOB65aw
zr%1QrIx<a8A$ahh;zX_DKJH~8AA}$OS6KFcA}D2KruN46-e`%tueT=Y&Sb^@du^X|
zeAMxWu6z3y+LC3Ri*#qS^(oj|Vl7wNBW;l}QZ#hMx~_CY4nYNBWa6spElIjNS#n^3
zy2meUTi_Phq`iBQ?vA!R(&;0U51GQL?pSxC5cW_zJ9g{x&CBy+A5Pqzc)%QpQI9Ov
zsfpM`qAB4{)O}%bB=xT(w;f(+`*YVHyB7A{?@spiCC^_-o_#s_k}FyL$|8_04!G*|
zhHDd7Cf=x>**U%Q3*FXKX?c`McVz$-mqZIv_TrcUST|MVBSj7WqAAVG)OUKMvBkHE
zbZJU&h&DytE1xNSOdl`2VT_-gIXite;eP!b(0(9t$;fE5OAIQho@eg2f;}l~VWKHj
zWRGL9sAhIdEZUK(-286Wn_cgX-wNLhe^J@|TL0A0^`VceKdJwyK2@}Nu57uK=-7f7
zQ{;$zvOTcH*+#Bk5>d-3=w^@)g(0fX113y`Rblm$W13t<tNww>UV>Tu5cBXK44DC1
znBG923ag(=pC;!YHyUd)nI)`+O9inssn9Tj45R6Bs=00$anF&CK=5E4XWdSf9D8yU
zN=Cs8uQ!jI_qv*#G}lYG$eWc7a3q<?@!`}-I?l_F`vqPJtQtZgiD^xA^5l7w4mKss
z6!qy?V}TlmA5VY?dStdnx*nM;u5^*;h*o{aAcJ|z7=u%jpyHkH)!y29bLTzn1O0(W
z+t+&2x)gJCEM9ekiL^c1yd}~VJucGaOM1i<MSA3|cTzo0MqU_q66TdGN~+!Ehxht8
zWGzXbf#j4UsfT=mWbgz7yZ~1Um(EP5<y%j72S?18jEYBGgF!$0K2p-BoSyZqBSCiD
z?|qgdmkLRy{6C>vQd1Q56=MF5O#eWY5L_z#wel<FORBw8?UET470)zGH!N9{QDf6@
z{qOrTqi*Ur^?AdmX{t5DTS$0q$ZVZDA3MKPq>O5}-#T{lm@={>t8EI$@KQ0Ml_17E
z)f#L4wiHIoYNTT1xxX2uc2TCNcgi30FChRE<L}}(u?)^@K4k7PGI(F}IrAyAOc<5}
X6rxPuGIpxyn`UGwzcF&fD6jv26=rPV

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_395140.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_395140.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..eb5620f36400ccb10fc86d5d8fbee18a1cb2ff1e
GIT binary patch
literal 5126
zcmbUkTWk|o_KrP%&p0@Vosa}@mat$p5L~iATb9=b0)&J@s}@ogYcexQocNK<ObAKG
zl37t<w=3cFp_pnVf`pW?AT{kzQ>ju>zq;CwWeDm<v#b=U>_`5xO;_6O*Pc7$u_wWl
zZm;b7IPZJzx#ynw3r)Kbw10a4)E}S_`W7#Y<|s^7et^j&;t)r~P`5r3-GsKb#I4;V
zfp}s-lVh;zBWK~s0g$@3an@(R$@1`CJ7>E}-Ytmfc5rqc4Xj%$6(P>?47jsA9OSyL
zlHIQ2&fHf~x7&hvcTtyTj0ky_u&OSVI&$jtZ#yEdp6EUr>0Gs1jq6}5OtxV!TH(JU
zkl2e7Vc-TV#;i1Q#N7fuRq-53OObM&Tp?5AHe{9!y4E(1kg2-`o#TK^`Q&vn{ge3U
zReY5u%gXEV8uY0u8Oc8IFM8X;p<c^+&@0=qPPqz0F}whEU?{drv#nYtbP5xnQ{$^#
z!{=JX=Qr7AU+V$TO38GuMJgf&oW*Hza?e_{J|KAvFh`gqmx*cFCKq>Y@VBAgeF%Q8
z0bGsj)$D{@lB#{mBi2DUm!~{Zi=pEX52^J}`9j0VYkff$IqFQ-dW}7lM!8yE&yn|R
zcX4DwOVvMz-Y?g!qHmA`CXO<9QLdL83_pz1pdkP{y|RAFcwH^~VXd91hWGzrl0-i<
zk~jR!NZu%0<PB@0({03)ym3vWc??Wy(^Fjf39jWRok!5*txDbJ=3d?;2L}9Rh(4Ds
z1A(WZ1GP`XjBFqW@7ax0CD0fOIl2UV>6dU`2@$G|lg5VlK0`prqLOh&98_&dsh<}@
zgy6z-v}%!Js(VOC_6bZp66I7oBQS|RUbT($LQ+&6y|E-C?S4VE>0pxOqL)+>fShXO
zl9Fl@rKG@vn50T#jjEfE@o_#OMWnG%qiSO!Lz1A{dh~(S2BK3Xx>TY=b%~M?<@g8_
zFHHxF(;m|_QG~K3S~elzxW)+=36NEgY8#4jk+?o2RC}_wSA?ZL8tXyWBQ`@+?V44h
z>S0)RBt8;jU@IyysCot?0v~6hiD;q^6KjqGVr?WCmFQ6&nrN`4FahD(-asg;(TR;<
zPw;u|hqEoCNnubNVpzVVpJ4|XsXv+6!SsOxTSS3vk@)yf3#?keQBpDiq9rhN=g?RL
zfRO@_O@a@1zxeBL>n^~kv`!Qm<b?zu6ZV23_;C`CKzyXp_mzmQxZauV%s0+c4e6tg
zDX(d@NLS`AD0JiPBhx2totR-}8|Ir1DD;8!v4v-19)rB|+4H&KeDgfLHGK@r=>6!-
z6q$cxB01wy0^!+XbFE+b=JtMa`hHYtJ*@;zEA%V6$e%>`q_TQ)+r+l~shQ>n^?Sb%
zz8wF2{88n}bjK4=75<=SvTvd<&rCJU2X=l#w`7QgKux|eA5-eKD}n79&q8JGN4|Vp
zzGk9j>abF|W#*T&)t?T}*4$~C>rl40E573yyP2j#scbQs%qXoo%@c4{d$v7yY$`A#
zKB9JK2<*JokOgPe2g2l~iA!LQ?|oTuZq9fXo!(sY)Ow|IyW-pqs?5u*ec6w^yOwKF
zMRhKwcz<#G?DY9t=Vyjzo9DM2RJ;e%?F-(jXJKIbZ|I&@{9C}){;)!aXWQr6zG|Fn
zS6bWdk14IM=)U&)-(&LCxjx0aamojJrbcI^PtVMZDqHu?H7Z+QR_OidV~<Juwc}Tg
zXI{^}IeBs7;?&XUlebR(t?5Oj>BV{fOZNlckjGabl#s9scVXyMyTD5$LW0G~$7nv7
zXtmI%0KMk9Mol6a4H#I{C==zNgWEv(df+h2EN}rw87Sru9Vel3H7dH_6Tn}tYSC*G
zqAbpe>z1OdVkP=4Sr@>PcRVQz*i=Rn#-^<AP?Aw!qjFV9){~`rEzj6%S)Z9+bCR>C
zZ1A^pj+CRk45?Thm8;w}Pun<W%E`G>t^~=sVdhD>GM)@r#ZgzCDYpc#xZY&9R@Wh@
z*+^_RysBuxTmu*AIBW5hDvvMLwBWfP=P!>h@srQtFOM(r+hn`!xJTbDSV16}d=-Vf
zUE?pDNDPfgL5WX@NkI(8M?@*u!v~XzAiSSJk%{v`j=vOT`5=?vg4$y%;Dgp4;qmZ^
z1e=TxF;cWA282;~5XERRAqIPsLJ-ok5WNf{V^VY|7G;4dnYd#SaE+?kb*W2-V6ha$
z9S*G}e4Caq!4i&sw(#))Q-tsVSHXX!AG!}M&-?Vq!o}bSe2_-jW-3|AT&*k|GN)Y{
zgTB`SF0yu&-d-p!?D|tA;F}+^s$}QU*A5Hyun-!c6S4WhbXwR0qw3rrW8ys=b6~u-
z@SN?BC0QmW9@uGMj$o!=LHD0D`eWc`{f+vmGc)AOMP=Lm`Sri~;?kFIeg4+h;jg&|
zuQEzk&-_7FspW)yKp(P}%+gANkW<(XaNW5!v7dnw#Rl&@+ppT-ZI#9fB~Eyc_E4&J
zy(9_Ir4%P@00AlyQ3+P1dcf4dh!`E`p|CKo6025Fx+F&8kx@n%5>+>ziW0o)qDuBb
z#bfdezFej%;m{%7M|Rya!fSwTfxp-cNB-Y5TJTWU_ht9xh9@siTz=@;G<A5o{Z{+T
z@W-QfMjtlqc|gV<?2FAq@7aS%_h$Fz!r7PdzMC~SYNmWQ>K=MFKOoON*m7<jde7!X
zo#skg`fz%<z@RT4JL&75tS5ISPr!TEIKB1O*4f6-wtcegk@MyB;l(O{`qV<PTXZ<D
zjb0i3V9Vr=i5(9en-;458P|e8kaaH>W*PSr50`FxLi%z|3R$z@bY;RBrZil4W}P|T
zyP$9K+{C#&^ZuKF`>8;G<AV14x6fs>F9#4sr;lsVz=G$B4Ht+w4p$bSn?zBRf_rcQ
zASohcNm+mV7C_2_4_MO&WtoJ}S>TfrYk-y_pCivATmLV4w$d{qld{dYizz!KFvO8K
z#$^Qe($*ESE+Gh(r8Izq*P&BMc7$Vum+{mi@uC!A8Ig~KL!@vV!*FTOC4`fh9>-hA
zp*jR!g!Clpfr{f_yT_(G(FrgSC%i)N>S3#kFU0Nzz+S{;9CT^4=v|j?U-Z^rX~)5q
zY5bl-E^jHuZf}|1acjq%{gLxv`tTET^sT{oGsC&YcPR+M4I9(#nNEeQTXrI<D&3`L
z07~1H&<0A?3Oz0DjKMd}2;4u_Y0L!t#jjciqLS)jAu~(-<sqSv0$$USzUB)7Z$kCx
z?uhgyW8592sWDPnJjsp3_yYpoBhJd=d(bUg34-_*QGZADKTyN69a)^$>aNr+TbhUy
z#4?4d{FBWS&C7IQ*%JOZb|+R`b`YJ!Uz`8j{GEnhu_6mq;OruT1fAip$Fi|y1k?P;
nP5FkbO=oSNQJ+vN7`k$nKm`3ARZUd=s})t$y&J#c(QN)7q(fsd

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_417385.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_417385.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..6ca539b8332956b68fbfbbd1f68d1b2a2c7302ea
GIT binary patch
literal 5271
zcmbUlZ%iB4{mwqyXZvh}4R*r6LI_Eml2E7V=msN@kdQP94N03ew3B!E4r1^ha(AS~
zeJ5R}OtITan5`Rbztov3g*K5!_hp$hY0*Aa+ZS%2%DOQrQu`&}Xvw5)+K2t#o&P~e
z>H37<d%yqh_j|wh-tYLU%jF=Ttt39Vdd5W%Utplr?8V8(e_^sfa0Exjh*4uCM@bzv
z#m%D>N$}*PuBRkwjGT$5CYjAR3~}Zs;Hf9zE!*SAY0i3+x?40bYU7-ojVC5+wy{WW
zj~}Nv`%TNJz3iLgCNb(T5xk?U)j3NBnMYXVu*Mue_u`4O;Y(*mPlnHLf;Q96YRu5Z
z7hk?m<cw6W$Of9s@Y`6Wa8xA{tHy28WQ^54N8U5tEpo^;RlFd(wIMTN?iO{(wL9=q
z$W`X`A`kMWECeC@Pz~~>K!;q1>X1jr)k}EAdPB9SJ_Y-XJY`uws@G+#fc2-KPXVVK
zsKQ}wyHEfzSX<Sq=%Ui9fg>v(U_Ho;HOjluF68=7(q*4?X-b!F*wLoD>`fyg&~C^D
z;^!ug7&q<4Yp`O=s1ai^zKFG9EViQi+k{Aiqe_m}<r=og**D2GSFLTE^Me@V8aGMh
z2yJ(k?wQN0Z;?DDR*tOFyj`wXP}%E}{2=j@w;<Y2p{I}=uTpMBt*BA=uMM?r@xwBO
z_jQkfukzZ!w^v!O&i&%@P!rn2QTHr&@i~Ad@7;mF8MSZX@2KMU8ak?bv=?=tma_I1
zu;)g`j=>!#H=$;L_5Dd<xcOa~B2dd@eYFl_UKM-)H>u^5x$pbsx4i%RWwv|(nUDkR
zH!`x6sin+9PIO@NZj~r<aH|Y5<9*!9k0^{y!M!6NtcvumZ$<zG(LQwWp0yNfl9(le
zwqXIpi6E&_?3+;$Mhhp+PV*Bb`JhRo;;cBOS(4IKUI>x`PX3@vGf6ScF)bt~1U4Ry
zavBxkqSrNZJets~tiUEFc+HaHg`}w2#$!oVdiIEBG0+r%oMz^d5-3R)$)O);7EwwH
zeDG<_!iJ|ML9>h*Lqs3Q^BOs<k!Ll#C<#%H53}*gbgDcZtC}Xt*hqypk`Qnz3;3i7
zaC8U(?kz$yPlFHk#7sO4lQ6KCrU|X4G>s<06GC!kTBG#=d+i*L3Zhh$VGOhwP4S??
zVkpvwgl0>QkBfNC#$*hlq+_NaTG&5Pv+C}Onv;!0X5uq37NVh%Q<`lmEJ~~(X--2R
z9GMXWETwM?Na-WVYUG$kMvD5uVZ%@a4Cw&`0}-87d>Z_1{qF5Q7rWj_3RB`V8{xaI
zvXLoPx|&QJVkh{7)Fld$E{Ts%cLCG|`ywS1U_^rDAD*5K12SAhMv|~)M?>AuKK~q0
zG?&2?p5lcB9}@;(Nq8H?Uqd!3#N!6S>6$x~Ig}e&bv&h<SgY|a*ye3HGS|COb3i$>
z6)ptY^HDX>wM^9&Jl<vhKGm~NIbHBJ<X%_3LFMe4&!3&m_o#uxOU#Pz$I7_^6Ud!d
z-g884I<gc~8;`5Z3FTzLRkQ4CS6%IkjLIBUPCoS1Ws&M>|7h$^^mcTKT<Trf*ROi|
z9}KAOlgd!x+sSJ#&)k*FmF%@#=Zb5;a;o6+W+y&i^L4oi)xU3Xx9UH#bou_^pWE&a
zeHwl+t3G!@^<Pk3BL?UA2P1hZ_sV>7(XRSKOG5^udUOytkCr*V^wupLm_Lv^x7fMd
z*!@T0PpLnoR=qEP!(c4*-q^y#{6vn;H?8;&f9~o^lLfCY8&kb|(zb%XId6q^q@9J@
zrrb-v3FTf<YdaQ6wKkZx0?II7L9H?FxuMKZ_Eg@#D6TTkrpawE{#^^>^W(XZJeluV
z@ppl4+MVsp?^eABRr(<4tp+pJbsyn=X5CNN>*m}U_j|%ZYCg3>?@<OGy74mIdp^2&
z=gRFXi`SMqS2~WV?qd-1CsV-VEBU}DwTpv`0ktip)`wJAXz9!Y+h^2Y*w1Wg{{<X4
z*9C~LyZ#q!t}Z*Fx?A$KU?=~^qV&6w#W&Rb-S^wn{XMFyS2?vtS#O=baXNiDJCeKn
zIkk5K(vuK=h`S#_7b(7n7)#)HO|KI#L;Buw+;T1uh?vw#n>&uw>lAWZnqI?99e`6{
zdjab1QdRpi5_DBtE2=Efb?$Oy4cz38+?JB8u6y$mb?9~Q<86m*23=2}%I3G7623n5
zHi-}KmX>j3oZ}`~`!>}hVDU4urB&W0nc{4+g`;IFXP0f9L#ES?G-%_TH)+`}K_y@`
zWY^<KKut$sdr(&sljX{)#06h5<;wgCbh1<*fXCl1zdgMoPwgPTJ-s4tK~`i#^gZTo
zu^J-@L|uXxclZ(hxX_>LRNzb^l8jHYQgkfFw{p=qpAe(TgqUhP&%%ZKX6ry}d`6U7
z$N1JrG9g7LW|A`%;_+>W@XlK~{(3aR3;0{|k%Bt{EI#VTGrWfpY`@g-hWp^R5rghm
zrky^HGLXbZ@|Q~3s$vC_ZEMRw;&A$bDDmUMXq<#Vn1?G5I9|2!zzA+o5j1Pm`I9dV
z2u%P8&CrSX;It}=&<~?V_r}=x7{~Udb`>9~-dHli#>BqECCVTcdIq|GDa0D>o^xiL
z*@3K-8&(5Puh5<MuK)I}kKei<y3al6Q~NHibX`*EOJA8yyRE`;5DHS2wN;9XAPu$6
zRd$-!Tv0Jx*$~YFPkiL6W`PG(niWoh0zLTpbEsL3Iw#0fE*;ImMx^L<*!E;XXu<3~
zxWhhft!JnSD3Yq;fIsakZ+?Hj5fG~p2H|C(cEeAshdutcLKK|LTz95B8_N7BSNmb$
z{Xo9<{f56e+n1@n<&M4;=$-AD=UC?0s<UaC>RE2-S%Kc!^kgjPyD_K?DA$V04PcFS
z=`kM3k?^>L?mU0{`K8eByFcw-rF-Bd@cH4fHoAH|t5eQBrc8`g8GK9=7H@X1N(BnE
zJsnE3m0^y~(AnB|oY|3uSLa{NvA=u`Xx|lC-&QF7{nO{LSmA+UT*_&Edm|8{a>JJ&
zj{HUex&<Oi$dKW$14brglWhL>{Dun)K2NJYS+@D`<4o|uh%G>qsU7s0koo`8XQ}#E
z0fj83Qzl#C`XM-~7i=N|PMc*oXcmS55>DX`&!E(w;n<+b$W@%Rnp5JT3XZTM9}dA8
zxPWoE+UF8N0E^-L3feTAz>706Ni_0OPhfmVD+#XWvxxtRQOs2%O%3(MTzw6wWAGC>
z=oI3iyG9v$=x)3*gmWw1_Lw2;#<A5?>Z6W3hi)IbZ(XI2DFa_tC)*Z^JAEzN_6`F%
z*W98ErO&HW!#YhcK4sWA*`!9mQN*4JXQ9(P#=Ubm2A?`JPz-ByX(r&arkN+Bl4gg)
zE=v5H(?an~zXTU`QqbceU`I5k5t8skGRA#O=%x&x>E3vfn~Cv#0`?PMz2dvjt(!@b
z{DNTqPPqO-G(9A3w;FCVteXy#9qSC?t6%7x?_76b$X$Xw7^*2jwHWdip|5=aZI}rY
zqigu;r(_f9O7nBEOl+NiX>R62^gi0a(~TEMf^>b&)RDfgjuM`Rcj7mk`fC3N8YYhS

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_654780.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_654780.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..7da487f1f869688a8e03272a45f68a6a7101495b
GIT binary patch
literal 5407
zcmbUlYfK!+dG>Da{eU~(PaE49UkWB9j&WmZLju7zHnC%i1nT6v+#dMg9(Z@L!)aDs
zSE<Y;l{lJIoYP7<OObqzEtN#7LaRu1t4ej+A7zadUAL}eDgIIS7Y(V@=2ySjz2y#a
zHfcuO>^I+gzWHY68~*Ha*%7qVCm)>ql?$QI$v|(m9I)o45L!SiVyQ41(Z19OrH%~|
z;|NWmAT^=t(M7c{YY5U4&W$)SVvUc$(~rQLisQ$utoaT4M$W*9g|!6HL}?Lw)<@uN
z#qnci*8T=PVq2fF;|(-oH=v+>-Iim9@;M(8Q-g~0x#KTBKj1%obfnLJV#8=7Z9uUd
zJ?-xs>KpVA1Pa|Gfi}W#?R66gv;g7O+Jr%e@?Vy^k)w;H*od8RAhCuxgdbqw7d@E9
zt^%w}#d@*lbxJG~%W)|#S1}d10wAy`RtnH-4SR5<s;m4)&bC;ED^(dYLPV=r4I^(H
zMz~7VQ-iC)GH5998>pKbOJS$3ljy-lqC>33HQ?<xk#=p6rd8>>Ep57WDX|_STnkHz
zer#aTn4yOFU?!GvJ;4%u4r?J;;-fm>225!j1#(tZu5Oc@ZG&86fp6B$(EzJX>>4u&
z>x5z(=%#Vq`)vYjPpz?3fo8Xk&3~~8ug_YS??tcv1ERehm+)S^9lMLoTU`~?B&<6(
zTwtLvQ*%ae11{kpic!zjx>)+A=?2MeXkybAdK-)D%||}(;|9Guq9?b|-0-zkHtD{T
zd?&NspmA$Y)vU>T22sz&wWz)wcw2#oUM(JlJ#NA~^wo;PT8rBt%5JRXA{jT}Mi{G^
zr_vjL@=qG!Z4(uRS~R#It17=vT|Yl|e!HD3?)r9nR&2%wY{$Dc?m>OeU<YpAxSw>2
zxO=k<Hj?$)%#Ue;jl=0EwiLv=`s)$EyYWuka?`BmC52{?&oan?IC@A<S0AOASYc)=
zIIau(3<@1#_({bS6V3%WAH|Ui&*xGMLRhg+aj|iZiTFdTVvK~Mikab<=y*^u#e-ao
zS1e=U7$ZFWlw#7*bbt+AP-s8`KN}N3Ni4_Iv0pLqLW~Rg_9!OCKP7OAX;k|J)DLw+
zp#~KSE)!nhLTu2_MDpO|IyhPYM%S@{JZ~V%kzL8rq=WMgapcfej8iZNTXZ_&2fz>P
zIv7<-bubk5k8`o<DaEdS{Cp@LRIC~d(vGnZ#|t@mXPyPLnKY&9C#qOtV`Dt=Ujs%V
zZYpLH;z#DnD`s`-yy9R2f$7L}n1RSB)TBZ&3N@-wft(~vOH&a56>6A3G~g%e#qWVx
zZU2VttC!j@#<)p-iU|bU&oO~XMmQIXwlU+usL;-Hfp#GnnQDhoJA__{MZtmqUhSQl
z@dMJILk427D*K<=*LmPcpeQbl$v+w7qQNkC2>h|Yk9R@%CG=%Ea=7N&5^X7J#a=5t
zpY?c?XJt=Qx<~djXIkab{nF8*xLs|_H2jq(<Jl5#azZZIE*;5wYf~e#w?!JbS5}#v
zNgtG}_Ac62$_`4$v(Bp2)9G5d?mM!xRqD&SN|WDB_|x^WvrX!|Us9gLa>>s3N3Vsh
zh8C&Cu9e;0a!L2C9@*U|^=BVXzUL~L8%_)-&!<{fTrJWIS(i6C{w|X)PmRl!yE8R%
z<x`78OTE8uTI&DMe``j5=A>MCQg)rvILF>Sm8MfK&&M)0xw2!iUt^T_^#bR<b<PLg
z@`XL~ds4?Ut;=<tpK!m8|2lrxdkiKD#yZ{^T^OGqPciBGmCC)Jx!Px`zdFiORO+}~
zy(hDOao2CC#g^-b<?3gbPTi?Kbg$IAV41h1%-4sno>}U-<&?XQ-@dRsG;-(ctII>L
ze)>bX>$PQORPGvGo`~Enjn4KIm$)<Z^73#|iA2u>-9~yS)B90VrvIvc@%&Q95|$4R
z$ejan^T6`yp}VCo7wAq8ebAE;9>bZnmc7F*T$sNA6ZO1}W$VsaN7m|2wx(-j?-R21
ziCOc8VZyvxhTKoCRw7&ZoIBwL;rM)f#kxc4$-2vuVcEUo{g<u{UmebzUu<1zJ}kQr
z!&*O@0+Ak0SAF2g^k%B$rVhEHLw0p69=&C`P5+6xZIQcAk_B^}gmraS{FF(RC&y)X
zW7-3D(ibzrN2f9u<(AH+Cb{LH?CO$UxJR2WAGvg7b|`r&HS`(1YYlb<;`WoS6FSAr
z1%+uY8X%{#-pT<`OJz4;FWWCW77#`gI<?@-Qfh%m6{V@g-z1z2yyY0YM)a!wM^tfL
zXTjE+cF}-~Y9mz9@TNn^6*&k^kTZ2tOV|^RF$3r?QW^ucNP&2h)~_eg$eKi&HH#+J
zBAQvNXkl%lb=E!$8sVj46>Wk;H-~NNyb%<wMq(4LTr{y>I_g~H$)J}3kD#wVGho(_
zmoHAw%Nw_lFHX<P(@<KOVIF2u^0NlAZrFmYHyt-}WfTREiPOmE9OOtC)muDXbu=1?
zMWz@bG#U<WXG4)-ln=$CJlx}EHh3Wv2y*1v^-v-mf;<0VH-U(Pha}+wxkna&2$3}_
zgWp;hx}O=gdZHyDkF@;L3%Y`Ggec$C60k<Bnv*&|DSgH$n3HiZe@heBwJU}r&iIT9
zeWLG74_6NZt^qopWZ-s5;=Tu8#o85SBBLyGC|;errn<th02Ag9?bRtgL})K`|B=uy
zD&MQSQkOoJp);?^d%9L?zV`?7A05AQ-0rz8ET0*bUkt2tvvLh9SC4UrLBwaydsa|C
zsP)1{hMVFQJE<3V0d7y;XMw8b95V$K5!~Q`bBYNrQelRB4iu^Dpk9lLSu1IL&ipCB
zH4>Hsq$9H{C|8b?;R)yzdK?O&f-sPOIplBr?rtp}W-SWbX`ns>KmIG|{wtxZ!#UTP
z=uCDbo=th)tGZH^_FSpG<Jh@OA6jlcv;w_jXO8Dmuhb)*-!Qmmb<H^v4miT7<O}JJ
zYX`0#SnT+?^TW=&)`L>d{jy59dbO?spi+-|n@h(YIL4&j2ec=-OQx%`R@-dHER+At
zSrgWz=Pl5>@XGuvDdz3(1MQn4E1I&}pO>8R-W_QMDuS%HE?d^{?<%LsyjqW(F6oH6
zhye(}dLu<3iSb$%x&;(MB4qJdz=)J+5RH$|VK{H#`CRbuC~^j}26)gC3(!P*3w;J`
z{J->>1X5M04gLXQ(sz<*hO+~nc3nWh2zHcd&}Za&VZ=R8Isz$lV47uo1}zgwPAU!|
z2qkQQ;e-ATAI-f;aHM!=qg)jcBS{2FZQ+9abXefE<Wp0XY{Y`}C7H_;&vFT=<)WrO
zmyp9i{Q+TPp_9;kcd68W-(7d9pCsFC)0a+UbLVsH{pM?JSKF4%cddt|o(F~5w~6AO
zJ)dlP%Lz%?&?xoKo{;I<RV#9qNrT${b*i)Cj)GC8L_1gZhT+vR4I5Um>JUdZlVY3*
z35qQM=cf>SeTvKN)-!OX#yB+=9GQgT(8A##kA>OmNHwFMMUfag9S$Di7~msEEB|xo
zR*e)zeU6-eL$1H0`c*SBSTEOJs$DfaK{c;BQCY=8>wN2~OB=O!{4#t!td9n$6VzW?
zKh06ysMI@$6Zne~;9WB!gHzKnLe*2Q+2C9_5ne?Arl#M+SFj2$nm%@Z=v*V%wPO^b
WTwgfLsj`3VLnXCuMJ_p1=l=)1V#Bxq

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_769893.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_769893.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..92afb7fbefa03e389b0f38ad6ab1c1c88a0f2c6c
GIT binary patch
literal 5407
zcmbUlYfK!+dG>Da{eZjU{W93b_!4YN9>$4@4G9F>*u;)45~!2Ya(m!|d*I#04ro?g
zSBcCel{lJIoYP7<OObqzEtTX?XjQdNRjE$<qpY!_>&BHV)j#U~q9K*q{OUKmx7<O_
zCe4VOo%!DL%{SkC!=GI)JA!ukw;!GT%!Sb3$wY6q++fX1A+&&4#8MG7tbM6rN}U^`
z#$lR5A!=NeqqAyX))1n{of~0f#u^_2ryl}06^D;nS@WCp^_+rX3u_6X@zNsttPg?P
zio-|Eto==T*tWi6$D3%_Za^XXx-Q2w<##?Hss<G2^T%F#p+9iy$Z&7q_=ed=T)$#F
zaw^a}*gFvD4;Gq99BqW(+8ZX~XaU@<wQ++!%70nvdJZp^Vk36W0E#utfcs$#^r8pT
z*i`^^sZcNWh(7q0;Zp2VA?3InMxarw5TMr@_TUOtmhXB_w^)fQR30-zM5<T?Gw%${
zaHT4z8drg4kWgSZU^h3G!cJW#k%NsyhFF8E!P@V_?b^UitK79)>U8T|VjV`f2DTKv
zWnj^$p_<rWCYo^_ff9HQY9UZ!qq^RDOlcGad{&jOb`zg%17AadZPv}+0Ig2!8Z`*(
zh++rmhH>5cZ2}xmt+7;rWVa5@f3XR#uUhBtL9hJ-yxoXPcrR|m?qcg!cf~XT`_2s&
zXef--oDy7*OE~ai%(JyDmcC)SPNEx{*tCV*hT?Mbp3mF3LGJe0i7h18e`}Xby6q(1
z$*MO<+}ct#YVwwW*K>X?DsMa9R$!r5^G9KioA7phw`O3k#ckkaH`Zd2%<FLj%+<(K
z@eM!uCyns7@$y0`+PEO9D!z?f&mTL!-^mqse!nv-He&;}<DDDNpnhhs12=CxPdY~2
zwV4MS$$o97$25V?Kz0;c3VdDlZ4cmGcn5B|Vb<f4Let1^8Q_2&Js{cDPbnr=n4S!c
z>CAqELPr^XLNUdKvmwq;apc1DyA*>EQS6gke2inFfiSBWqv4ohW;iA`7E(+zAui4<
zmeEL@5uSWPF==2r$cE1=Gys8~jSC<oo+E1Cr<iyl&V~HD6%!Mf6gb5+qJ4tuhdQoM
z0}2I~2`_MAHWXl@`QgO+aHL=uTZabow80ohP9;Z^4)Pu1NYYk}lduL`Y$_UnK>*10
zVN9`)aq+3i03V(SDWy6%91Eym#j0U}+c6sEcp=B{%rk*BlO|OC#1u<>bd)FdYl9K+
zn+ll#|B<!widkJcuQ-@sa4I?#VZbvAHK9<9LX9X?FvkhY(nJJ7gz6?>4F<@5@w;JF
zjo-0-^K#pTI5)vhGQm*WStdBa2xsH5J<M1rCbaQfuuTX>C);4w2Cf(4G0-4@ReL9=
z0{{%<fWbKIO2@uu_CNC^U=)`|6qpEcu~39N2=)+9^Dc0|guX6A4%ghC#GVwjVy}^2
z$a=iVGqR^C-7R~XGp%yzKIuqtSdDZvTiLiwmt{-5$#J=)Q97LU)})4IZ;RA_*H@98
zP9Kmf_b%F3d<UdsS!ZSH$#jie`?&0Em3p(T(&RIVK)OzL?vZ-$m6Rp1T(aZCk*nb=
z;YDh(b7fbTT+(&3TXy$Kec4B&@48Cnh7v=`bE(!9SBvyw*5yr(z0ah}Qe$$(u1vLD
z@x<cbQqS+3mij&p+?<x5J|S0}kX<J=%F*{vrs>ox^YM&Lu4rHE(+K6KdVun&b;|qR
zvW4CAyHm$9t;@9?zu|s2^Q)OV-lMQkP}ct5$imqCSc*y4tyJv&!qqlQ{nb&HqEg4?
zs@<7=i#vZ!Ew)@cBv(DVbn<r9!Mmm21<Sl8Wxh6a<@8ebO{d&>?AH0^!QtCyURxe~
z?eibWov$x5BXZ}+@_6)4X>7K;ILGb5SC)s0awNL%>pIednVwIYGJRJ9i|3Zwm#}=G
zU+(CaoBNkf4c;kzr9gIi@T2aG@CeGR)%PB^aDM(gEY$NZmaRKx9a*b8*_y7Fy^qP(
z$7anNrU~<^54nG^T7hh3bMAy2m}ll^R;=5l?yTFFjL7coAHIBb=*m#$++yoW^C8)N
z2=@Bn81VE^y7D7WrYBP=H?_;<?Xs(V@yJcfE&5N)EsNZBf^3-U1njH3{HIK+EIB5-
z8`2)olfIA<J~^4WAh&cZHOVapWLKy3;$7N&>F~wFvxCW#slhMkoojF^5VwzX9ndLe
zE+kBGu^`FHdMks0S}MB%ddYstv4Aid*Rcg(mQo8mswhq^{w5$Z@Rp<S8qurzA5+C;
zodI2M+eHH|Dve-8!`luaSL7fxPIBs|mar!rqXv*)q%;O-kpl4stzS=~ku`}lYZgtc
zMKrTk(Zbq9>#ThiB*II@D%u2xt`6JObt5QRjYKD0xoCX7bkwQHlR+;79)e$gX27Z+
z&0id!=QnP_UmTz3r=hem!#d2Q<Yx_J->?N+Z#b^!$|wpR6Q_{hIlvJ&s<-$|<&ju0
z9-U-_@JJ-o$cCe#7$1(uc(}*SZ0LMA7~;sY>w!c%1b6;}E;1ql9*}?w<{nuv)bh0t
zzH1TaerDL}iI#vk(&A4q=nBdaB79Rzz#g$`OzQNc^ckgKO~!%zElo_<t{9FO<2New
z@!r$jTpdifdgyo(fsK;HJqKUK+8JS@BP?@prYd($bw=VrCc+=wt7Eze(_ZNQBcWeZ
zd{BG2HhnTfXI__gcdk@F_XqPI9iKUFb>9+}Pmjni1y{OQxtf)$M!7@4;y33lE2tmT
zdf@`YP4bGJ)Cjx)w<qtnKvi>=nS_c6Zt&n)#RM0rFwH#=g4BIbuSLbIl{9{5J_~RS
zgk(SI$m$Bpm1AUj96E&_gF>jl4dh=A`5V8hOY?_W^8$AYuusE}{|37MN+|1a&UGX@
zlI@9SQ=ShhFIT2Lmuqf2b}Z8emzxi+K=0U*qq*24bxY?qOzv7;bB=@qQW%wdG2MQ3
z|CRlV?Vomh+;PWxK<d8dtAMLl>&jtN>QQfV>F9mOsMK?x_9S=8bY<3Rn{A(E@}D_t
z!kYBF15y`WoqsjOy!%7IeOF+4Q&#))k{s{do@SsT$a-tDzWRSxI!)%)I^=Xoht*9C
zf(zCgDFTU)*Rs$ppfD04iq8N<q(p;gd~^&$zJcd+!Na3S4rC4Rpd}ihiS!oo4A}U8
z$ukKSO)_K$$Qb%b63vi1;Az(hNQ~e_nFjnut_Nn^3#20>g$_=!jNhO|B8f@GA%viW
z4KjQv(C(+Xmk5j$?`({#By1#zAgC=|h@XlGycT?FsFH(N5WXaGd16^EAhlT3#ODHX
z2(SS{#zH5dd+t)H@1DE%Vjl^%*`}|Z$mY(+*oVzm_gvYtWWHlPBz4~}jJ{16_w2c3
z(>qQG!ukfOZ}zxM*Q{ER(<cpR=hvyOiaP>Il@cwl?2W*yWeN_gV%0|+IZTRiJS-@-
zAmmRW^u{EYJFTZ7r^Y$e7aUoH;?Ud?7>h^PYe-e2=b~twor;7GatzRs)XM)Hx>X}Z
zQC}kGm&o-uRJUqI2J5Aoi#4l;$EoI3C-Rjqw9dD#y0lqa`!6HcBKoYKI!^ti_46Fo
zjY_?9IDx+^0opYqGB`CEXQ(>LH5;0XBqFN_hN-C!@MWwH7fqi!KX$GW=-OclQLe9?
TWt8t<Poa{UccK>^s`38=#6iP{

literal 0
HcmV?d00001

diff --git a/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_993568.cpython-312.pyc b/src/temp/gen/__pycache__/triton_matmul.py_gen_triton_code_993568.cpython-312.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1344c73317cd0845004a06ad4ce21ba81ca268a5
GIT binary patch
literal 5481
zcmbUlTTC3+_0I0>b7mLV<zZg-VghCp9>p*6AhAinIJUvYCb2`(tcIOkys!^EGuQ#$
zm6phnckQYyjVsnp)oi3lp|L-l{*+3U>Q<E+wLeU-qSe%uEX6<kk&sqx)sLP#voGUy
zNpc1EabEYFbI-Z=%>LD8vm$6`rBBc6%MkjCEOO0~ooxOWCQFD%JQYM^+DMI2>RK1l
zkI@wJQIo2i9IH0+Iv+jBJ_;i%UjGC*{RFt7G~93IjhE?L*$u`_Jj0uOXtKP-j^@&E
zKh0Y%8^$bo+pL$-m{o^-*1S|^mU6S}MC7o-zI@{3E5|)&UL70o3_Y@X6n9)<2Tz}T
z?NpZ1Tda`@B<bOQ^Da%iDp5o<X_Go_Ebe*gw(eGzB3fQV3%pw!rm^i-Rz|d98(KYP
z^Ry0JhAZX_2t}Q^96RSgMzj)F;xZLhB@vC)h8?(S4$c{u<$0@d74THg84;QTnrMwG
z0agGba(3Vv%n~_8`k1rgiUyu4=%dQ1#XGR=JMrahR{83--N&BSy&fZ63n!1>)A7i!
zs|9_qk?e`<36#LIP!oX?`RX1Gn9?YU_{=I_-4;H}BYcfTx|PTl%wn5gC*{3TDsyh@
z^V;u}AYZk{Q$><XMTP<At<LfHqaWXZ^V#*72lP{LZrF}@X`Ub!Z?VciDCQt4qprv4
zihQEd;jKQQ^W05ES{G+X)+*e9T|9l;aEoLMwCL__=o@j<BlOL9XAy@(lTzH{-MBgD
zk2xFcuoL#QW9_ubx&b%BT0L78-}sXcX!HXk`l%ln(JfeqpVFc+AEnk@T;Y~2XT#($
z(bmVfw3FS+Q8<r1Mc%3`_LDZpt#~KibK96Z4+_m9w`o{_U_fq4p}BVgB8&!Jnw|Dd
z<oMk>g${AzlwycT=Y4{k5=iK~8AT@r73;JRnGm>;C%`MTmk(T2^r1jlF>(SIp71G#
zIiC;_6_Y<0;iP?g6@vz*VaY3cJ|ZawQHlsYcbj71Jkye(7{;~1s}9tVLJcd_am6A^
zLV)*qxKLp_m7k6mO~ZMpw?OL+3nT^wl3D`X1W14j4k`L+P}>ro33*`R0nXesq?G5T
zfv{&nh|EkYW_2KjGX8)dN-9rCVKuNAnDco;ih&5q4q?R<@%u%hvo;wA$Ec7ga1gOi
zRE(;*qQY=q?@VYW$bmN$3h>0^9xgkMD-@?t<5@9amnP2(@>D;G>XC?TV3X@Rw*Q>&
zx)c$n#A(j!>pIVQr#R_+B;3JG_`*_`D0sUhUue1uR$btDDH8UCI0^LYoSyXn(31sv
zBXB0qJ-6?`!Dj)Z*fb)~lurozg2D@+4=F*!UqXb%(6>7fV_WD*bfiY^S$D-=xnJ&B
zGA)`?RH}Eaye;<X)^(<)IUSH|x>o7ROqpY~x>YV~jUCN6>QZmX4tMPMeP?xYHvNKJ
z(|LzobG{fmkzs36`_c_^eTU3;#s)IB@>OTEY-?U-Wp;mT;DOzl49fQ1AD{l@jgQ_~
zzHp~~t>utxKNK6xJP~u>UcL}W1XLaEZLuR6n<F`KlS@~oCgkeY<yyIV@156I`v2Ip
zGWeP2?yP*^lw5sEwvA|%{+lCdI(2q2vTTv7yYCEYg!2A=pxmFQeCViLYFlheomg&P
zt?&7r@cX&n&fRky0|Q~R?(5@A6N?imF5R$J-T9@hD^6t`wKtnmqp3ZzV|RK)cC;>^
zSm~DAdsi;X?E`nEzl_|yBtLU<_4FC}nKN?5Xxx}_?n*bw&gQgVcD8@Y-KkujkR1nC
zDrCp=E0?kihg60`8pD0ozA%^=Odd&BFN^oseR1k>NXG2EE-YPKya=jQypLsbbDYVT
z?aB6Zt?YPOHa`vf7B3UVjWT5a(S`$+RetYdAZ|aaIa97`0dH1y%eKcIYC8pfXPrOm
zOG?Q>nQcg2kXcvy?DFWZyO+<(EeBR8x#c;Tc|O*EpEh1OI)60&dh*S*^d;TC31Nza
z1Ef0$oj3bp5hx-zsao&-6T<ikd&RbdFq%|Rk9L?U1)YMl6m`eYyA*I0%gr+9>QtU0
zl!6naY)d7Yjv-!`<5VS=s2bh^eXp`nJxF{4HcDT$VLhe`Iu>fh$r4pwf=xh$19p_E
zeoFcT>Yc1LQA263N#rV4Td8_U^$Ek%Q6v1Dcth08Q&9_Vj9SC{wv}hkNiK{f<QcQ_
z7^xyh$D49B`@2+}jf2g+`La36NX{GuX4GmEK_zJ*UI8zn$*LT-F!Gk1q$l95c|5fZ
ze`$Py->?mTX?%g-h)vkcGuVQyx7l0SYKubHa0a<;!|S9<n5&C~gR`!^9sMrJ7ZxLe
z=n`k9rz3*o<DpJ4^1h1!uTLPC{`z6kxkyKXZ*I?P;XJ8JtuS2vh~VlQ>UWK*FN{lj
zJiPhODc~ZZL0rBWgzo3M?LM{=kYYSV4klL=78OK9|1B*6q0FnF4LN#JeEBIbSU+5-
z7>H%sgC~%Pa_bd(XkfHYsDp)251mLt+!c!n&%>ygdxKnPoabJe+mU@VdxH@#7ZhLW
z%wdKIQzvx)ilJXre^`H`K0UHbFTX9f^{&;v_$T9^nLjX}_kAv{j*iPGy=#Ygxt5oA
z_=R3zQOmV;;-z(xp>AVA(W27EO6nI;g7;k1%9=}@FfF<n^=zQ@3P6z}p68~aMuU>W
zdtNcXdoRrjhd^YuUh6(6kRVXl(=%Zy5b_NOLPSs>b;YQaV{Uul%2ceJR|;I@q(CGr
zG!Q=B@x2P=-KyQIfD(=oJUsy=U6B)sZ;Pv!!-qA0LM=o}58-vdlgn8=3&#IDhB6Gh
z(39v%a^!*hf@xf(8&{b|0zHs8a1G#BdsBTM4%`^{U@(2*=80AM$m-Ka)}UwFvaIv{
zvA)=a3~M8=-TXl8Wq4c}HmSSX6B~~A+&9}6m;{p?Nm1|;c7O8hN6+5r{!PzkJ@?En
z#QGkX%vUbWU%KA1)Unv{g=tr&rZ&zNbyd}IYo@X)VaZsm3pI(F>jO(ei$h;nnu=&t
zmOSA@d);b%|C)VZ)jaT!@yGff(iO?4WV$9}w#2*RTwz!+C(Ox;YoOZFxy5rS?)^6b
z_g#TiO_}Upb;jA4an%2#hBX*B>JV#-9aSUD3r@~AQZ1A4-poL^gaRlEDfSjXqEu8D
z)&KtlgWD0lz>B_!OT0t8uIP=Rw~?pA`tK#rP<YSa*A+u9&7($agw&@=K4ApuZWwm!
z*Ac|kdJI6qIq2YfW`^h7IyGaoykI0B)csyg^m)47v_P_0{iNZ;!b!qLBGheCOoC6G
z2}+_C+awp%TcVIF!YIH*@~ccX-nBs2#Al=ZZNN?uG9J1ZdSEY)4L-2f&kvH2jW>PE
zB8$Bco*%b-((zHpit(QLP^|A^ao}#j*y9(HP1jh6-^QJ>!T69&*KL>)>x>PnNAISF
z-K=Vu&=316W!k;h8HCTd8MsUob8aS(p9K~DWI$3Z-bh%KeD6%>Zii9zZBX4I5IYn`
z^N43666Ak{v}-JTSB4_|Owjj|;0HQ#sfj;@ZbMH|)K`f88?yZ!HEdXs&U~eAzHUS3
zraCrQ<g8k1Uu@s7k(E8SDkH1%+^T}C9NE=3PFQW~k&aa*e0`2;rEGEELNF2BKrl_s
ge28!0O)}kln?jWB8@7^ie!U-+)m;nCGpfG-1OAG@-2eap

literal 0
HcmV?d00001

diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py
new file mode 100644
index 0000000..33fd7f5
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py
@@ -0,0 +1,214 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    token_ids,
+    weight,
+    out,
+    stride_b,
+    stride_l,
+    stride_v,
+    stride_d,
+    stride_ob,
+    stride_ol,
+    vob_start_id,
+    vob_end_id,
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr
+):
+    pid_batch = tl.program_id(0)
+    pid_dim = tl.program_id(1)
+
+    cols_d = pid_dim * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    mask_d = cols_d < stride_d
+
+    for start_l in tl.range(0, stride_l, BLOCK_NN):
+        cols_l = start_l + tl.arange(0, BLOCK_NN)
+        mask_l = cols_l < stride_l
+
+        offset_ids = pid_batch * stride_b + cols_l
+        ids = tl.load(token_ids + offset_ids, mask=mask_l).to(tl.int64)
+
+        ids = tl.where((ids >= vob_start_id) & (ids < vob_end_id), ids, vob_start_id)
+        valid_mask = (ids >= vob_start_id) & (ids < vob_end_id)
+
+        offset_weight = ids[:, None] * stride_v + cols_d[None, :]
+        vals = tl.load(
+            weight + offset_weight,
+            mask=mask_l[:, None] & mask_d[None, :] & valid_mask[:, None]
+        )
+
+        offset_out = (
+            pid_batch * stride_ob +
+            cols_l[:, None] * stride_ol +
+            cols_d[None, :]
+        )
+        tl.store(
+            out + offset_out,
+            vals,
+            mask=mask_l[:, None] & mask_d[None, :]
+        )
+
+
+def embedding(
+    token_ids: torch.Tensor,
+    weight: torch.Tensor,
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor
+) -> None:
+    assert token_ids.device == weight.device == out.device
+    assert token_ids.dtype == torch.int64 or token_ids.dtype == torch.int32
+    assert weight.ndim == 2 and out.ndim == 3
+    B, L = token_ids.shape
+    V, D = weight.shape
+    assert out.shape == (B, L, D)
+
+    BLOCK_DMODEL = triton.next_power_of_2(D)
+    BLOCK_N = 32
+    BLOCK_NN = 256
+    grid = (B, triton.cdiv(D, BLOCK_DMODEL))
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out,
+        token_ids.stride(0),
+        token_ids.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        vob_start_id,
+        vob_end_id,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py.stdout
new file mode 100644
index 0000000..2de91c2
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_155036.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_155036 due to 
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py
new file mode 100644
index 0000000..80887d1
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py
@@ -0,0 +1,214 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    token_ids_ptr,        # int32*
+    weight_ptr,           # fp16/fp32*
+    out_ptr,              # fp16/fp32*
+    seq_len,              # int32
+    num_tokens,           # int32
+    d_model,              # int32
+    vob_start_id,         # int32
+    vob_end_id,           # int32
+    stride_id,            # int32
+    stride_w0,            # int32
+    stride_w1,            # int32
+    stride_out0,          # int32
+    stride_out1,          # int32
+    BLOCK_N:    tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid_seq = tl.program_id(0)  # sequence index
+    pid_col = tl.program_id(1)  # d_model block index
+
+    if pid_seq >= seq_len:
+        return
+
+    cols = pid_col * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    d_mask = cols < d_model
+    out_offset = pid_seq * stride_out0 + cols * stride_out1
+    weight_offset_col = cols * stride_w1
+
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    n_offsets = tl.arange(0, BLOCK_N)
+    n_mask = n_offsets < num_tokens
+    flat_ids = pid_seq * stride_id + n_offsets
+    token_ids = tl.load(token_ids_ptr + flat_ids, mask=n_mask, other=0)
+    valid = (token_ids >= vob_start_id) & (token_ids < vob_end_id)
+    token_ids = token_ids - vob_start_id
+
+    w_offs = token_ids * stride_w0 + weight_offset_col
+    w_vals = tl.load(weight_ptr + w_offs, mask=d_mask[:, None] & valid[None, :], other=0.0)
+    acc = tl.sum(w_vals, axis=1)
+
+    acc = acc.to(out_ptr.dtype.element_ty)
+    tl.store(out_ptr + out_offset, acc, mask=d_mask)
+
+
+def embedding(
+    token_ids: torch.Tensor,  # int32, shape (seq_len, num_tokens)
+    weight:    torch.Tensor,  # fp16/fp32, shape (vocab_size, d_model)
+    vob_start_id: int,
+    vob_end_id: int,
+    out:       torch.Tensor = None,
+) -> torch.Tensor:
+    seq_len, num_tokens = token_ids.shape
+    _, d_model = weight.shape
+    assert token_ids.dtype == torch.int32
+    assert weight.dtype in [torch.float16, torch.float32]
+    assert weight.is_contiguous()
+
+    if out is None:
+        out = torch.empty((seq_len, d_model), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_DMODEL = triton.next_power_of_2(d_model)
+    BLOCK_N = min(triton.next_power_of_2(num_tokens), 64)
+
+    grid = (seq_len, triton.cdiv(d_model, BLOCK_DMODEL))
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out,
+        seq_len,
+        num_tokens,
+        d_model,
+        vob_start_id,
+        vob_end_id,
+        token_ids.stride(0),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py.stdout
new file mode 100644
index 0000000..0150467
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_176773.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_176773 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py
new file mode 100644
index 0000000..8c62e47
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py
@@ -0,0 +1,244 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(
+    ids,            # pointer to the seq-len length token-id vector, [batch, seq-len]
+    weight,         # pointer to the embedding table, [vocab, d]
+    out,            # pointer to the output embeddings, [batch, seq-len, d]
+    stride_ids_b,   # stride(ids, 0)
+    stride_ids_s,   # stride(ids, 1)
+    stride_weight_v, # stride(weight, 0)
+    stride_weight_d, # stride(weight, 1)
+    stride_out_b,   # stride(out, 0)
+    stride_out_s,   # stride(out, 1)
+    stride_out_d,   # stride(out, 2)
+    vocab_size,
+    d,
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid_b = tl.program_id(0)
+    pid_s = tl.program_id(1) * BLOCK_N
+    pid_d = tl.program_id(2) * BLOCK_DMODEL
+
+    # row-major iteration
+    for n_base in range(0, BLOCK_N, BLOCK_NN):
+        # offset into the tokens
+        offsets_s = pid_s + n_base + tl.arange(0, BLOCK_NN)      # [BLOCK_NN]
+        mask_s = offsets_s < d        # valid mask over seq-len
+
+        # load token ids  [BLOCK_NN]
+        ids_ptr = ids + pid_b * stride_ids_b + offsets_s * stride_ids_s
+        cur_ids = tl.load(ids_ptr, mask=mask_s, other=0)
+
+        # mask valid indices in vocab range
+        mask_vocab = (cur_ids >= 0) & (cur_ids < vocab_size)
+
+        # Embed over feature dimension
+        for d_base in range(0, BLOCK_DMODEL, BLOCK_DMODEL):
+            offsets_d = pid_d + d_base + tl.arange(0, BLOCK_DMODEL)  # [BLOCK_DMODEL]
+            mask_d = offsets_d < d
+
+            # compute weight ptrs
+            weight_ptrs = (
+                weight
+                + cur_ids[:, None] * stride_weight_v          # [BLOCK_NN, 1] * stride
+                + offsets_d[None, :] * stride_weight_d        # [1, BLOCK_DMODEL]
+            )
+            weight_vals = tl.load(
+                weight_ptrs,
+                mask=mask_s[:, None] & mask_d[None, :] & mask_vocab[:, None],
+                other=0.0
+            )
+            out_ptrs = (
+                out
+                + pid_b * stride_out_b
+                + offsets_s[:, None] * stride_out_s
+                + offsets_d[None, :] * stride_out_d
+            )
+            tl.store(
+                out_ptrs,
+                weight_vals,
+                mask=mask_s[:, None] & mask_d[None, :]
+            )
+
+
+def embedding(
+    ids: torch.Tensor,
+    weight: torch.Tensor,
+) -> torch.Tensor:
+    """
+    Wrapper function that launches the Triton embedding_kernel.
+    Args:
+        ids:   Tensor of token indices, shape [batch, seq-len]
+        weight: Embedding weight matrix, shape [vocab_size, d]
+    Returns:
+        out: Tensor of embeddings, shape [batch, seq-len, d]
+    """
+    assert ids.dtype in (torch.int64, torch.int32), "ids must be int64/int32"
+    assert len(ids.shape) == 2          # [batch, seq-len]
+    assert len(weight.shape) == 2       # [vocab, d]
+
+    batch, seq_len = ids.shape
+    vocab_size, d = weight.shape
+
+    out = torch.empty((batch, seq_len, d), dtype=weight.dtype, device=weight.device)
+
+    # Simple heuristics
+    BLOCK_N  = 64
+    BLOCK_NN = 16
+    BLOCK_DMODEL = 64
+
+    grid = (
+        batch,
+        triton.cdiv(seq_len, BLOCK_N),
+        triton.cdiv(d, BLOCK_DMODEL)
+    )
+
+    embedding_kernel[grid](
+        ids,
+        weight,
+        out,
+        ids.stride(0),
+        ids.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        vocab_size,
+        d,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py.stdout
new file mode 100644
index 0000000..a17766f
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_180807.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_180807 due to embedding() takes 2 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py
new file mode 100644
index 0000000..f28b316
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py
@@ -0,0 +1,195 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(input_ids_ptr,
+                     weight_ptr,
+                     out_ptr,
+                     vob_start_id: tl.constexpr,
+                     vob_end_id: tl.constexpr,
+                     stride_ids_0, stride_ids_1,
+                     stride_w_v, stride_w_d,
+                     stride_out_0, stride_out_1, stride_out_2,
+                     seq_len, vocab_size, dim,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr):
+    pid_d = tl.program_id(axis=0)
+    pid_b = tl.program_id(axis=1)
+
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+
+    row_start = pid_b * seq_len
+    for j in range(0, seq_len, BLOCK_N):
+        offs_n = j + tl.arange(0, BLOCK_N)
+
+        mask_n = offs_n < seq_len
+        flat_idx = row_start + offs_n
+        pid = tl.load(input_ids_ptr + flat_idx, mask=mask_n, other=0)
+
+        valid_id = (pid >= vob_start_id) & (pid < vob_end_id) & mask_n
+        real_id = pid - vob_start_id
+        real_id = tl.where(valid_id, real_id, 0)
+
+        w_off = real_id[:, None] * stride_w_v + offs_d[None, :] * stride_w_d
+        embed = tl.load(weight_ptr + w_off,
+                        mask=valid_id[:, None] & (offs_d[None, :] < dim))
+
+        o_off = pid_b * stride_out_0 + offs_n[:, None] * stride_out_1 + offs_d[None, :] * stride_out_2
+        tl.store(out_ptr + o_off,
+                 embed,
+                 mask=valid_id[:, None] & (offs_d[None, :] < dim))
+
+
+def embedding(input_ids: torch.Tensor,
+              weight: torch.Tensor,
+              vob_start_id: int,
+              vob_end_id: int,
+              out: torch.Tensor) -> torch.Tensor:
+    if input_ids.ndim == 1:
+        input_ids = input_ids.unsqueeze(0)
+    batch, seq_len = input_ids.shape
+    vocab_size, dim = weight.shape
+    assert out.shape == (batch, seq_len, dim)
+    assert weight.dtype == out.dtype
+
+    BLOCK_DMODEL = triton.next_power_of_2(dim)
+    BLOCK_N = 128
+    grid = (triton.cdiv(dim, BLOCK_DMODEL), batch)
+
+    embedding_kernel[grid](
+        input_ids, weight, out,
+        vob_start_id, vob_end_id,
+        input_ids.stride(0), input_ids.stride(1),
+        weight.stride(0), weight.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        seq_len, vocab_size, dim,
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py.stdout
new file mode 100644
index 0000000..6586448
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_18528.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_18528 due to 
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py
new file mode 100644
index 0000000..7e41178
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py
@@ -0,0 +1,235 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# ---------------------------------------------------------------------------
+# Triton kernel
+# ---------------------------------------------------------------------------
+@triton.jit
+def embedding_kernel(
+    ids,           # pointer to token-ids tensor               shape [B, S]   (int64)
+    weight,        # pointer to embedding weight matrix        shape [V, D]   (float16 or float32)
+    out,           # pointer to output  3-D tensor             shape [B, S, D]
+    B,             # int: number of sequences (batch size)
+    S,             # int: max sequence length for all sequences
+    V,             # int: vocabulary size
+    D,             # int: embedding dimension
+    stride_ids_0,  # leading stride of   ids: = S
+    stride_w_0,    # leading stride of  weight: = D
+    stride_out_0,  # leading stride of   out: = S * D
+    stride_out_1,  #
+    stride_out_2,  #
+    vob_start_id,  # (unused) beginning of allowed index range in V
+    vob_end_id,    # (unused) end of allowed index range
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid = tl.program_id(0)  # 1-D grid: each block handles one sequence in the batch
+
+    # each block handles every BLOCK_N tokens, each tid loop handles BLOCK_NN tokens
+    for b_base in range(0, S, BLOCK_N):
+        ids_offset = pid * stride_ids_0 + b_base
+        # Load mask
+        n_ids = tl.arange(b_base, b_base + BLOCK_N)
+        mask_n = n_ids < S
+
+        # Load token indices
+        token_ids = tl.load(ids + ids_offset + tl.arange(0, BLOCK_N), mask=mask_n, other=0)
+
+        # Clamp to legal bounds [0, V-1]
+        token_ids = tl.maximum(0, token_ids)
+        token_ids = tl.minimum(V - 1, token_ids)
+
+        # Iterate over tokens in groups of BLOCK_NN
+        for start in range(0, BLOCK_N, BLOCK_NN):
+            idx_group = start + tl.arange(0, BLOCK_NN)
+            group_mask = mask_n & (idx_group < BLOCK_N)
+
+            # Current token ids for this group
+            tid = token_ids[start : start + BLOCK_NN]  # shape [BLOCK_NN]
+            outs_idx = pid * stride_out_0 + (b_base + start + tl.arange(0, BLOCK_NN)) * stride_out_1
+
+            # Iterate over the embedding dimension in blocks
+            for d_start in range(0, D, BLOCK_DMODEL):
+                offs_d = d_start + tl.arange(0, BLOCK_DMODEL)
+                mask_d = offs_d < D
+
+                valid_mask = group_mask[:, None] & mask_d[None, :]
+
+                # Weight pointer: weight[tid, d_offs] = weight + tid * stride_w_0 + offs_d
+                weight_ptr = weight + tid[:, None] * stride_w_0 + offs_d[None, :]
+                emb_vec = tl.load(weight_ptr, mask=valid_mask, other=0.0)
+
+                # Output pointer
+                output_ptr = out + outs_idx[:, None] * stride_out_2 + offs_d[None, :]
+                tl.store(output_ptr, emb_vec, mask=valid_mask)
+
+# ---------------------------------------------------------------------------
+# Python wrapper
+# ---------------------------------------------------------------------------
+def embedding(
+    ids: torch.Tensor,      # [B, S]   long int
+    weight: torch.Tensor,   # [V, D]   float16 or float32
+    vob_start_id: int = 0,
+    vob_end_id: int = None,
+    out: torch.Tensor = None,
+) -> torch.Tensor:          # Returns: [B, S, D]
+    B, S = ids.shape
+    V, D = weight.shape
+    device = weight.device
+    dtype = weight.dtype
+
+    if vob_end_id is None:
+        vob_end_id = V
+
+    if out is None:
+        out = torch.empty((B, S, D), dtype=dtype, device=device)
+
+    BLOCK_N = 64
+    BLOCK_NN = 64
+    BLOCK_DMODEL = triton.next_power_of_2(D)
+
+    grid = (B,)
+
+    embedding_kernel[grid](
+        ids,
+        weight,
+        out,
+        B, S, V, D,
+        ids.stride(0),
+        weight.stride(0),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        vob_start_id,
+        vob_end_id,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py.stdout
new file mode 100644
index 0000000..11bc87e
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_200147.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_200147 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py
new file mode 100644
index 0000000..04b9476
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py
@@ -0,0 +1,205 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(token_ids_ptr, out_ptr, weight_ptr,
+                     stride_tokens_b, stride_tokens_s,
+                     stride_out_b, stride_out_s, stride_out_d,
+                     stride_weight_v, stride_weight_d,
+                     vocab_size: tl.constexpr, hidden_size: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_D: tl.constexpr):
+    pid_b = tl.program_id(0)       # batch dimension
+    pid_n = tl.program_id(1)       # sequence-block dimension
+
+    offs_s = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    # load token indices for this batch row
+    seq_len = 0
+    # Token tensor: shape (batch, seq) => stride (seq, 1)
+    # We will access: token_ids_ptr += pid_b * stride_tokens_b
+    token_ids_row_ptr = token_ids_ptr + pid_b * stride_tokens_b
+
+    # Since seq length is fixed per call from wrapper, assume seq_len is known
+    # We'll pass seq_len explicitly via a scalar; instead handle via BLOCK_N mask
+    # For now, pass seq_len as a placeholder scalar (not used in kernel after fixing wrapper)
+
+    # Load the tokens for this block
+    mask_s = offs_s < stride_tokens_s  # Effective seq_len from wrapper stride storage
+    tok_ids = tl.load(token_ids_row_ptr + offs_s, mask=mask_s, other=0)
+
+    for start_d in range(0, hidden_size, BLOCK_D):
+        offs_d = start_d + tl.arange(0, BLOCK_D)
+        mask_d = offs_d < hidden_size
+
+        # Compute weight offset: [vocab, hidden]
+        weight_offs = tok_ids[:, None] * stride_weight_v + offs_d[None, :] * stride_weight_d
+        mask_w = mask_s[:, None] & mask_d[None, :]
+
+        emb = tl.load(weight_ptr + weight_offs, mask=mask_w, other=0.0)
+
+        # Compute out offset: [batch, seq, hidden]
+        out_offs = pid_b * stride_out_b + offs_s[:, None] * stride_out_s + offs_d[None, :] * stride_out_d
+        mask_out = mask_s[:, None] & mask_d[None, :]
+        tl.store(out_ptr + out_offs, emb, mask=mask_out)
+
+
+def embedding(token_ids: torch.Tensor, weights: torch.Tensor, vob_start_id=None, vob_end_id=None,
+              out: torch.Tensor = None) -> torch.Tensor:
+    if token_ids.dim() == 1:
+        token_ids = token_ids.unsqueeze(0)
+    elif token_ids.dim() != 2:
+        raise ValueError("token_ids should be 1-D or 2-D tensor")
+
+    vocab_size, hidden_size = weights.shape
+    batch, seq = token_ids.shape
+    assert weights.dtype in [torch.float16, torch.float32]
+    assert token_ids.dtype in [torch.int32, torch.int64]
+
+    if out is None:
+        out = torch.empty((batch, seq, hidden_size), dtype=weights.dtype, device=weights.device)
+
+    # Ensure contiguous
+    token_ids = token_ids.contiguous()
+    weights = weights.contiguous()
+    out = out.contiguous()
+
+    BLOCK_N = 64
+    BLOCK_D = min(128, triton.next_power_of_2(hidden_size))
+
+    grid = (batch, triton.cdiv(seq, BLOCK_N))
+
+    embedding_kernel[grid](
+        token_ids, out, weights,
+        int(token_ids.stride(0)), int(seq),
+        int(out.stride(0)), int(out.stride(1)), int(out.stride(2)),
+        int(weights.stride(0)), int(weights.stride(1)),
+        vocab_size, hidden_size,
+        BLOCK_N, BLOCK_D
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py.stdout
new file mode 100644
index 0000000..9b307cd
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_211539.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_211539 due to Dimension out of range (expected to be in range of [-2, 1], but got 2)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py
new file mode 100644
index 0000000..3625cb4
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py
@@ -0,0 +1,181 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    out, ids, weight,
+    stride_os, stride_om,
+    stride_ws, stride_wm,
+    N,
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    start_id = pid * BLOCK_NN
+    cols_d = tl.arange(0, BLOCK_DMODEL)
+
+    for i in range(0, BLOCK_NN, BLOCK_N):
+        rows_seq = start_id + i + tl.arange(0, BLOCK_N)
+        mask = rows_seq < N
+        ids_off = rows_seq
+        token_ids = tl.load(ids + ids_off, mask=mask, other=0)
+
+        w_off = (token_ids[:, None] * stride_ws + cols_d[None, :] * stride_wm)
+        x = tl.load(weight + w_off, mask=mask[:, None], other=0.0)
+
+        o_off = rows_seq[:, None] * stride_os + cols_d[None, :] * stride_om
+        tl.store(out + o_off, x, mask=mask[:, None])
+
+
+def embedding(ids: torch.Tensor,
+              weight: torch.Tensor,
+              vob_start_id=None,
+              vob_end_id=None,
+              out: torch.Tensor = None) -> torch.Tensor:
+    N = ids.numel()
+    DMODEL = weight.size(-1)
+    if out is None:
+        out = torch.empty((N, DMODEL), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_N = 16
+    BLOCK_NN = 32
+    BLOCK_DMODEL = triton.next_power_of_2(DMODEL)
+
+    grid = lambda meta: (triton.cdiv(N, meta['BLOCK_NN']),)
+
+    embedding_kernel[grid](
+        out, ids, weight,
+        out.stride(0), out.stride(1),
+        weight.stride(0), weight.stride(1),
+        N,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py.stdout
new file mode 100644
index 0000000..30513bb
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_322972.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: embedding_triton_kernel.py_gen_triton_code_322972.py
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py
new file mode 100644
index 0000000..89a3d3a
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py
@@ -0,0 +1,198 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(weights_ptr, id_ptr, out_ptr,
+                     stride_wd, stride_wn,
+                     stride_o0, stride_o1,
+                     seq_len, dim,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_D: tl.constexpr,
+                     BLOCK_NN: tl.constexpr):
+    pid_d0 = tl.program_id(0)  # block row
+    pid_b  = tl.program_id(1)  # batch index
+
+    # D offsets handled within each program
+    offs_d = pid_d0 * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    # per-seq id & out base pointers
+    seq_id_ptr  = id_ptr  + pid_b * seq_len
+    seq_out_ptr = out_ptr + pid_b * seq_len * stride_o0
+
+    for block_n_start in range(0, seq_len, BLOCK_NN):
+        offs_n = block_n_start + tl.arange(0, BLOCK_N)
+        mask_n = offs_n < seq_len
+
+        ids = tl.load(seq_id_ptr + offs_n, mask=mask_n)          # [BLOCK_N]
+        mask = (ids >= 0) & mask_n
+        ids = tl.where(mask, ids, 0)
+
+        # Row-major weights: shape (dim, vocab)  → stride (stride_wd, stride_wn=1)
+        # pointer = &weights[ids, offs_d]
+        ptrs = weights_ptr + ids[:, None] * stride_wd + offs_d[None, :]  # [BLOCK_N, BLOCK_D]
+        vals = tl.load(ptrs, mask=mask[:, None] & (offs_d[None, :] < dim))
+
+        out_ptrs = seq_out_ptr + (offs_n[:, None] * stride_o0 + offs_d[None, :] * stride_o1)
+        tl.store(out_ptrs, vals, mask=mask[:, None] & (offs_d[None, :] < dim))
+
+
+def embedding(weights: torch.Tensor, indices: torch.Tensor) -> torch.Tensor:
+    """
+    weights: (vocab_size, dim)
+    indices: (batch, seq)
+    returns: (batch, seq, dim)
+    """
+    orig_dtype = weights.dtype
+    # Triton prefers float32 accumulation
+    weights_fp = weights.to(torch.float32)
+
+    vocab, dim = weights_fp.shape
+    batch, seq = indices.shape
+
+    BLOCK_D_TRITON = triton.next_power_of_2(dim)
+
+    out = torch.empty((batch, seq, dim), dtype=weights_fp.dtype, device=weights.device)
+    stride_wd, stride_wn = weights_fp.stride()
+    stride_o0, stride_o1 = out.stride(0), out.stride(2)
+
+    # block sizes
+    BLOCK_N = 64
+    BLOCK_NN = 128
+    grid = (triton.cdiv(dim, BLOCK_D_TRITON), batch)
+
+    embedding_kernel[grid](
+        weights_fp, indices, out,
+        stride_wd, stride_wn,
+        stride_o0, stride_o1,
+        seq, dim,
+        BLOCK_N=BLOCK_N,
+        BLOCK_D=BLOCK_D_TRITON,
+        BLOCK_NN=BLOCK_NN,
+    )
+
+    return out.to(orig_dtype)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py.stdout
new file mode 100644
index 0000000..1040a61
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_347928.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_347928 due to embedding() takes 2 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py
new file mode 100644
index 0000000..fc11875
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py
@@ -0,0 +1,195 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(weight,
+                     ids,
+                     out,
+                     stride_w,
+                     stride_out,
+                     num_tokens,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_NN: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr):
+    pid = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    start_token = pid * BLOCK_NN
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    tok_idx = start_token + tl.arange(0, BLOCK_NN)
+
+    mask_t = tok_idx < num_tokens
+    mask_d = offs_d < stride_w
+
+    ids_vec = tl.load(ids + tok_idx, mask=mask_t)
+
+    for i in range(BLOCK_NN):
+        if i < BLOCK_N:
+            pass
+        valid_tok = (start_token + i) < num_tokens
+        if valid_tok:
+            token_id = ids_vec[i]
+            w_off = token_id * stride_w + offs_d
+            vec = tl.load(weight + w_off, mask=mask_d)
+            o_off = (start_token + i) * stride_out + offs_d
+            tl.store(out + o_off, vec, mask=mask_d)
+
+
+def embedding(weight: torch.Tensor,
+              ids: torch.Tensor,
+              out: torch.Tensor,
+              BLOCK_N: int = 1,
+              BLOCK_NN: int = 32,
+              BLOCK_DMODEL: int = None):
+    assert weight.ndim == 2
+    assert ids.ndim == 1
+    assert out.ndim == 2
+    assert out.shape == (ids.shape[0], weight.shape[1])
+
+    _, d_model = weight.shape
+    num_tokens = ids.numel()
+
+    if BLOCK_DMODEL is None:
+        BLOCK_DMODEL = triton.next_power_of_2(d_model)
+
+    grid = (triton.cdiv(num_tokens, BLOCK_NN),
+            triton.cdiv(d_model, BLOCK_DMODEL))
+
+    embedding_kernel[grid](
+        weight,
+        ids,
+        out,
+        stride_w=weight.stride(0),
+        stride_out=out.stride(0),
+        num_tokens=num_tokens,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py.stdout
new file mode 100644
index 0000000..b9d3de5
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_355413.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_355413 due to 
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py
new file mode 100644
index 0000000..65ca966
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py
@@ -0,0 +1,190 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional
+
+
+@triton.jit
+def embedding_kernel(indexes, weight, out,
+                     stride_idx_b, stride_idx_s,
+                     stride_wt_v, stride_wd,
+                     stride_ot_b, stride_ot_s, stride_ot_d,
+                     VOCAB_SIZE: tl.constexpr, D_MODEL: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr, vob_start_id: tl.constexpr, vob_end_id: tl.constexpr):
+    pid_b = tl.program_id(0)
+    pid_s = tl.program_id(1)
+    pid_d = tl.program_id(2)
+
+    seq_start = pid_s * BLOCK_N
+    d_start = pid_d * BLOCK_NN
+
+    offs_s = seq_start + tl.arange(0, BLOCK_N)
+    offs_d = d_start + tl.arange(0, BLOCK_NN)
+
+    mask_seq = offs_s < (seq_start + BLOCK_N)
+    mask_d = offs_d < D_MODEL
+
+    idx_ptr = indexes + pid_b * stride_idx_b + offs_s * stride_idx_s
+    token_ids = tl.load(idx_ptr, mask=mask_seq, other=0)
+
+    clamp_low = tl.full_like(token_ids, vob_start_id)
+    clamp_high = tl.full_like(token_ids, vob_end_id - 1)
+    token_ids = tl.where(token_ids < vob_start_id, clamp_low, token_ids)
+    token_ids = tl.where(token_ids > (vob_end_id - 1), clamp_high, token_ids)
+    token_ids = token_ids - vob_start_id
+
+    w_offs = (token_ids[:, None] * stride_wt_v) + (offs_d[None, :] * stride_wd)
+    emb_vec = tl.load(weight + w_offs, mask=mask_seq[:, None] & mask_d[None, :], other=0.0)
+
+    o_offs = (pid_b * stride_ot_b) + (offs_s * stride_ot_s)[:, None] + (offs_d * stride_ot_d)[None, :]
+    tl.store(out + o_offs, emb_vec, mask=mask_seq[:, None] & mask_d[None, :])
+
+
+def embedding(indexes: torch.Tensor, weight: torch.Tensor, vob_start_id: int, vob_end_id: int, out: Optional[torch.Tensor] = None) -> torch.Tensor:
+    B, S = indexes.shape
+    VOCAB_SIZE, D_MODEL = weight.shape
+
+    out = torch.empty((B, S, D_MODEL), dtype=weight.dtype, device=weight.device) if out is None else out
+
+    BLOCK_N = min(64, triton.next_power_of_2(S))
+    BLOCK_NN = min(64, triton.next_power_of_2(D_MODEL))
+
+    grid = (B, triton.cdiv(S, BLOCK_N), triton.cdiv(D_MODEL, BLOCK_NN))
+
+    embedding_kernel[grid](
+        indexes, weight, out,
+        indexes.stride(0), indexes.stride(1),
+        weight.stride(0), weight.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        VOCAB_SIZE=VOCAB_SIZE,
+        D_MODEL=D_MODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        vob_start_id=vob_start_id,
+        vob_end_id=vob_end_id
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py.stdout
new file mode 100644
index 0000000..800d0a5
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_429595.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_429595 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py
new file mode 100644
index 0000000..fb26140
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py
@@ -0,0 +1,222 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    ids,             # [B, L]
+    weight,          # [V, D]
+    out,             # [B, L, D]
+    stride_ids_b,
+    stride_ids_l,
+    stride_weight_v,
+    stride_weight_d,
+    stride_out_b,
+    stride_out_l,
+    stride_out_d,
+    V,
+    D,
+    BLOCK_L: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_b = tl.program_id(0)                # batch dim
+    pid_l = tl.program_id(1) * BLOCK_L      # seq-len dim
+    pid_d = tl.program_id(2) * BLOCK_D      # embed dim
+
+    offs_l = pid_l + tl.arange(0, BLOCK_L)
+    offs_d = pid_d + tl.arange(0, BLOCK_D)
+
+    mask_l = offs_l < ids.shape[1]
+    mask_d = offs_d < D
+
+    ids_ptrs = ids + pid_b * stride_ids_b + offs_l * stride_ids_l
+    idx = tl.load(ids_ptrs, mask=mask_l, other=0).to(tl.int32)
+    idx = idx[:, None]
+
+    w_ptrs = (
+        weight
+        + idx * stride_weight_v
+        + offs_d[None, :] * stride_weight_d
+    )
+
+    mask_v = (idx >= 0) & (idx < V)
+    mask = mask_l[:, None] & mask_d[None, :] & mask_v
+
+    embs = tl.load(w_ptrs, mask=mask, other=float(0))
+    out_ptrs = (
+        out
+        + pid_b * stride_out_b
+        + offs_l[:, None] * stride_out_l
+        + offs_d[None, :] * stride_out_d
+    )
+    tl.store(out_ptrs, embs, mask=mask_l[:, None] & mask_d[None, :])
+
+
+def embedding(
+    ids: torch.Tensor,
+    weight: torch.Tensor,
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor,
+) -> torch.Tensor:
+    assert ids.dtype in (torch.int32, torch.int64)
+    assert weight.ndim == 2
+    assert out.numel() == 0 or out.shape[:-1] == ids.shape
+    assert vob_end_id - vob_start_id <= weight.size(0)
+
+    B, L = ids.shape
+    _, D = weight.shape
+
+    if out.numel() == 0:
+        out = torch.empty((B, L, D), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_L = 64
+    BLOCK_D = triton.next_power_of_2(D)
+
+    grid = (
+        B,
+        triton.cdiv(L, BLOCK_L),
+        triton.cdiv(D, BLOCK_D),
+    )
+
+    embedding_kernel[grid](
+        ids,
+        weight,
+        out,
+        ids.stride(0),
+        ids.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        weight.size(0),       # V
+        weight.size(1),       # D
+        BLOCK_L=BLOCK_L,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py.stdout
new file mode 100644
index 0000000..cbf28ac
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_43398.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_43398 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py
new file mode 100644
index 0000000..65ca966
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py
@@ -0,0 +1,190 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional
+
+
+@triton.jit
+def embedding_kernel(indexes, weight, out,
+                     stride_idx_b, stride_idx_s,
+                     stride_wt_v, stride_wd,
+                     stride_ot_b, stride_ot_s, stride_ot_d,
+                     VOCAB_SIZE: tl.constexpr, D_MODEL: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr, vob_start_id: tl.constexpr, vob_end_id: tl.constexpr):
+    pid_b = tl.program_id(0)
+    pid_s = tl.program_id(1)
+    pid_d = tl.program_id(2)
+
+    seq_start = pid_s * BLOCK_N
+    d_start = pid_d * BLOCK_NN
+
+    offs_s = seq_start + tl.arange(0, BLOCK_N)
+    offs_d = d_start + tl.arange(0, BLOCK_NN)
+
+    mask_seq = offs_s < (seq_start + BLOCK_N)
+    mask_d = offs_d < D_MODEL
+
+    idx_ptr = indexes + pid_b * stride_idx_b + offs_s * stride_idx_s
+    token_ids = tl.load(idx_ptr, mask=mask_seq, other=0)
+
+    clamp_low = tl.full_like(token_ids, vob_start_id)
+    clamp_high = tl.full_like(token_ids, vob_end_id - 1)
+    token_ids = tl.where(token_ids < vob_start_id, clamp_low, token_ids)
+    token_ids = tl.where(token_ids > (vob_end_id - 1), clamp_high, token_ids)
+    token_ids = token_ids - vob_start_id
+
+    w_offs = (token_ids[:, None] * stride_wt_v) + (offs_d[None, :] * stride_wd)
+    emb_vec = tl.load(weight + w_offs, mask=mask_seq[:, None] & mask_d[None, :], other=0.0)
+
+    o_offs = (pid_b * stride_ot_b) + (offs_s * stride_ot_s)[:, None] + (offs_d * stride_ot_d)[None, :]
+    tl.store(out + o_offs, emb_vec, mask=mask_seq[:, None] & mask_d[None, :])
+
+
+def embedding(indexes: torch.Tensor, weight: torch.Tensor, vob_start_id: int, vob_end_id: int, out: Optional[torch.Tensor] = None) -> torch.Tensor:
+    B, S = indexes.shape
+    VOCAB_SIZE, D_MODEL = weight.shape
+
+    out = torch.empty((B, S, D_MODEL), dtype=weight.dtype, device=weight.device) if out is None else out
+
+    BLOCK_N = min(64, triton.next_power_of_2(S))
+    BLOCK_NN = min(64, triton.next_power_of_2(D_MODEL))
+
+    grid = (B, triton.cdiv(S, BLOCK_N), triton.cdiv(D_MODEL, BLOCK_NN))
+
+    embedding_kernel[grid](
+        indexes, weight, out,
+        indexes.stride(0), indexes.stride(1),
+        weight.stride(0), weight.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        VOCAB_SIZE=VOCAB_SIZE,
+        D_MODEL=D_MODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        vob_start_id=vob_start_id,
+        vob_end_id=vob_end_id
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py.stdout
new file mode 100644
index 0000000..ead9d0a
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_459432.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_459432 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py
new file mode 100644
index 0000000..96e0bc0
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py
@@ -0,0 +1,189 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(weight,
+                     ids,
+                     out,
+                     stride_w,
+                     stride_out,
+                     num_tokens,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_NN: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr):
+    pid = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    start_token = pid * BLOCK_NN
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    tok_idx = start_token + tl.arange(0, BLOCK_NN)
+
+    mask_t = tok_idx < num_tokens
+    mask_d = offs_d < (stride_w * 1)          # stride_w is row-stride (D)
+
+    ids_vec = tl.load(ids + tok_idx, mask=mask_t)
+
+    for i in range(BLOCK_NN):
+        valid_tok = (start_token + i) < num_tokens
+        token_id = ids_vec[i]                # scalar token-id
+        w_off = token_id * stride_w + offs_d
+        vec = tl.load(weight + w_off, mask=mask_d)
+        o_off = (start_token + i) * stride_out + offs_d
+        tl.store(out + o_off, vec, mask=mask_d)
+
+
+def embedding(ids: torch.Tensor,
+              weight: torch.Tensor,
+              vob_start_id: int,
+              vob_end_id: int,
+              out: torch.Tensor,
+              BLOCK_N: int = 1,
+              BLOCK_NN: int = 32,
+              BLOCK_DMODEL: int = None):
+    _, d_model = weight.shape
+    num_tokens = ids.numel()
+
+    if BLOCK_DMODEL is None:
+        BLOCK_DMODEL = triton.next_power_of_2(d_model)
+
+    grid = (triton.cdiv(num_tokens, BLOCK_NN),
+            triton.cdiv(d_model, BLOCK_DMODEL))
+
+    embedding_kernel[grid](
+        weight,
+        ids,
+        out,
+        stride_w=weight.stride(0),
+        stride_out=out.stride(0),
+        num_tokens=num_tokens,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py.stdout
new file mode 100644
index 0000000..073078d
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_474863.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_474863 due to at 24:19:
+    start_token = pid * BLOCK_NN
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    tok_idx = start_token + tl.arange(0, BLOCK_NN)
+
+    mask_t = tok_idx < num_tokens
+    mask_d = offs_d < (stride_w * 1)          # stride_w is row-stride (D)
+
+    ids_vec = tl.load(ids + tok_idx, mask=mask_t)
+
+    for i in range(BLOCK_NN):
+        valid_tok = (start_token + i) < num_tokens
+        token_id = ids_vec[i]                # scalar token-id
+                   ^
+ValueError('Did you forget to add @triton.jit ? (`_builder` argument must be provided outside of JIT functions.)')
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py
new file mode 100644
index 0000000..6fd91fc
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py
@@ -0,0 +1,218 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    token_ids_ptr,        
+    weight_ptr,           
+    out_ptr,              
+    seq_len,             
+    num_tokens,          
+    d_model,              
+    vob_start_id,         
+    vob_end_id,           
+    stride_id,            
+    stride_w0,            
+    stride_w1,            
+    stride_out0,          
+    stride_out1,          
+    BLOCK_N: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid_seq = tl.program_id(0)  
+    pid_col = tl.program_id(1)  
+
+    if pid_seq >= seq_len:
+        return
+
+    cols = pid_col * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    d_mask = cols < d_model
+    out_offset = pid_seq * stride_out0 + cols * stride_out1
+    weight_offset_col = cols * stride_w1
+
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    n_offsets = tl.arange(0, BLOCK_N)
+    n_mask = n_offsets < num_tokens
+    flat_ids = pid_seq * stride_id + n_offsets
+    token_ids = tl.load(token_ids_ptr + flat_ids, mask=n_mask, other=0)
+    valid = (token_ids >= vob_start_id) & (token_ids < vob_end_id)
+    token_ids_off = token_ids - vob_start_id
+
+    w_offs = token_ids_off * stride_w0 + weight_offset_col
+    w_vals = tl.load(weight_ptr + w_offs, mask=d_mask[:, None] & valid[None, :], other=0.0)
+    acc = tl.sum(w_vals, axis=1)
+
+    acc = acc.to(out_ptr.dtype.element_ty)
+    tl.store(out_ptr + out_offset, acc, mask=d_mask)
+
+
+def embedding(
+    token_ids: torch.Tensor,  
+    weight: torch.Tensor,    
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor = None,
+) -> torch.Tensor:
+    if token_ids.dim() == 1:
+        seq_len, num_tokens = token_ids.numel(), 1
+    else:
+        seq_len, num_tokens = token_ids.shape
+   
+    _, d_model = weight.shape
+    assert token_ids.dtype == torch.int32
+    assert weight.dtype in [torch.float16, torch.float32]
+    assert weight.is_contiguous()
+
+    if out is None:
+        out = torch.empty((seq_len, d_model), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_DMODEL = triton.next_power_of_2(d_model)
+    BLOCK_N = min(triton.next_power_of_2(num_tokens), 64)
+
+    grid = (seq_len, triton.cdiv(d_model, BLOCK_DMODEL))
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out,
+        seq_len,
+        num_tokens,
+        d_model,
+        vob_start_id,
+        vob_end_id,
+        token_ids.stride(0) if token_ids.dim() > 1 else 1,
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py.stdout
new file mode 100644
index 0000000..b5ea42b
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_477598.py.stdout
@@ -0,0 +1,14 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_477598 due to at 39:13:
+
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    n_offsets = tl.arange(0, BLOCK_N)
+    n_mask = n_offsets < num_tokens
+    flat_ids = pid_seq * stride_id + n_offsets
+    token_ids = tl.load(token_ids_ptr + flat_ids, mask=n_mask, other=0)
+    valid = (token_ids >= vob_start_id) & (token_ids < vob_end_id)
+    token_ids_off = token_ids - vob_start_id
+
+    w_offs = token_ids_off * stride_w0 + weight_offset_col
+    w_vals = tl.load(weight_ptr + w_offs, mask=d_mask[:, None] & valid[None, :], other=0.0)
+             ^
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py
new file mode 100644
index 0000000..feb12f4
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py
@@ -0,0 +1,187 @@
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(weight,
+                     ids,
+                     out,
+                     stride_w,
+                     stride_out,
+                     num_tokens,
+                     BLOCK_NN: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr):
+    pid_bn = tl.program_id(0)     # block id over the batch dimension
+    pid_d  = tl.program_id(1)     # block id over the d_model dimension
+
+    # offset of token indices handled by this program instance
+    offs_n = pid_bn * BLOCK_NN + tl.arange(0, BLOCK_NN)
+    mask_n = offs_n < num_tokens                     # mask out-of-bounds tokens
+    token_ids = tl.load(ids + offs_n, mask=mask_n)   # block of token-ids
+
+    # offset of feature dimensions handled by this program instance
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    mask_d = offs_d < stride_w                       # stride_w == d_model
+
+    # load d_model vectors, one per active token_id, using broadcasting
+    # shape = (BLOCK_NN, BLOCK_DMODEL)
+    w_offs = token_ids[:, None] * stride_w + offs_d[None, :]
+    vec = tl.load(weight + w_offs, mask=mask_n[:, None] & mask_d[None, :])
+
+    # write to output tensor
+    o_offs = offs_n[:, None] * stride_out + offs_d[None, :]
+    tl.store(out + o_offs, vec, mask=mask_n[:, None] & mask_d[None, :])
+
+
+def embedding(ids: torch.Tensor,
+              weight: torch.Tensor,
+              vob_start_id: int,
+              vob_end_id: int,
+              out: torch.Tensor,
+              BLOCK_NN: int = 32,
+              BLOCK_DMODEL: int = None):
+    num_tokens = ids.numel()
+    _, d_model = weight.shape
+
+    if BLOCK_DMODEL is None:
+        BLOCK_DMODEL = triton.next_power_of_2(d_model)
+
+    grid = (
+        triton.cdiv(num_tokens, BLOCK_NN),
+        triton.cdiv(d_model, BLOCK_DMODEL),
+    )
+
+    embedding_kernel[grid](
+        weight,
+        ids,
+        out,
+        stride_w=weight.stride(0),
+        stride_out=out.stride(0),
+        num_tokens=num_tokens,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return out
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py.stdout
new file mode 100644
index 0000000..863aa16
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_480728.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: embedding_triton_kernel.py_gen_triton_code_480728.py
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py
new file mode 100644
index 0000000..65ca966
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py
@@ -0,0 +1,190 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional
+
+
+@triton.jit
+def embedding_kernel(indexes, weight, out,
+                     stride_idx_b, stride_idx_s,
+                     stride_wt_v, stride_wd,
+                     stride_ot_b, stride_ot_s, stride_ot_d,
+                     VOCAB_SIZE: tl.constexpr, D_MODEL: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr, vob_start_id: tl.constexpr, vob_end_id: tl.constexpr):
+    pid_b = tl.program_id(0)
+    pid_s = tl.program_id(1)
+    pid_d = tl.program_id(2)
+
+    seq_start = pid_s * BLOCK_N
+    d_start = pid_d * BLOCK_NN
+
+    offs_s = seq_start + tl.arange(0, BLOCK_N)
+    offs_d = d_start + tl.arange(0, BLOCK_NN)
+
+    mask_seq = offs_s < (seq_start + BLOCK_N)
+    mask_d = offs_d < D_MODEL
+
+    idx_ptr = indexes + pid_b * stride_idx_b + offs_s * stride_idx_s
+    token_ids = tl.load(idx_ptr, mask=mask_seq, other=0)
+
+    clamp_low = tl.full_like(token_ids, vob_start_id)
+    clamp_high = tl.full_like(token_ids, vob_end_id - 1)
+    token_ids = tl.where(token_ids < vob_start_id, clamp_low, token_ids)
+    token_ids = tl.where(token_ids > (vob_end_id - 1), clamp_high, token_ids)
+    token_ids = token_ids - vob_start_id
+
+    w_offs = (token_ids[:, None] * stride_wt_v) + (offs_d[None, :] * stride_wd)
+    emb_vec = tl.load(weight + w_offs, mask=mask_seq[:, None] & mask_d[None, :], other=0.0)
+
+    o_offs = (pid_b * stride_ot_b) + (offs_s * stride_ot_s)[:, None] + (offs_d * stride_ot_d)[None, :]
+    tl.store(out + o_offs, emb_vec, mask=mask_seq[:, None] & mask_d[None, :])
+
+
+def embedding(indexes: torch.Tensor, weight: torch.Tensor, vob_start_id: int, vob_end_id: int, out: Optional[torch.Tensor] = None) -> torch.Tensor:
+    B, S = indexes.shape
+    VOCAB_SIZE, D_MODEL = weight.shape
+
+    out = torch.empty((B, S, D_MODEL), dtype=weight.dtype, device=weight.device) if out is None else out
+
+    BLOCK_N = min(64, triton.next_power_of_2(S))
+    BLOCK_NN = min(64, triton.next_power_of_2(D_MODEL))
+
+    grid = (B, triton.cdiv(S, BLOCK_N), triton.cdiv(D_MODEL, BLOCK_NN))
+
+    embedding_kernel[grid](
+        indexes, weight, out,
+        indexes.stride(0), indexes.stride(1),
+        weight.stride(0), weight.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        VOCAB_SIZE=VOCAB_SIZE,
+        D_MODEL=D_MODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        vob_start_id=vob_start_id,
+        vob_end_id=vob_end_id
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py.stdout
new file mode 100644
index 0000000..20fcf39
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_490985.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_490985 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py
new file mode 100644
index 0000000..e60fd1e
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py
@@ -0,0 +1,228 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# ---------------------------------------------------------------------------
+# Triton kernel
+# ---------------------------------------------------------------------------
+@triton.jit
+def embedding_kernel(
+    ids,           # pointer to token-ids tensor               shape [B, S]   (int64)
+    weight,        # pointer to embedding weight matrix        shape [V, D]   (float16 or float32)
+    out,           # pointer to output  3-D tensor             shape [B, S, D]
+    B,             # int: number of sequences (batch size)
+    S,             # int: max sequence length for all sequences
+    V,             # int: vocabulary size
+    D,             # int: embedding dimension
+    stride_ids_0,  # leading stride of   ids: = S
+    stride_w_0,    # leading stride of  weight: = D
+    stride_out_0,  # leading stride of   out: = S * D
+    stride_out_1,  #
+    stride_out_2,  #
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid = tl.program_id(0)  # 1-D grid: each block handles one sequence in the batch
+
+    # each block handles every BLOCK_N tokens, each tid loop handles BLOCK_NN tokens
+    for b_base in range(0, S, BLOCK_N):
+        ids_offset = pid * stride_ids_0 + b_base
+        # Load mask
+        n_ids = tl.arange(b_base, b_base + BLOCK_N)
+        mask_n = n_ids < S
+
+        # Load token indices
+        token_ids = tl.load(ids + ids_offset + tl.arange(0, BLOCK_N), mask=mask_n, other=0)
+
+        # Ensure token_ids in [0, V-1]
+        token_ids = tl.maximum(0, token_ids)
+        token_ids = tl.minimum(V - 1, token_ids)
+
+        # Iterate over tokens in groups of BLOCK_NN
+        for start in range(0, BLOCK_N, BLOCK_NN):
+            idx_group = start + tl.arange(0, BLOCK_NN)
+            group_mask = mask_n & (idx_group < BLOCK_N)
+
+            # Current token ids for this group
+            tid = token_ids[start : start + BLOCK_NN]  # shape [BLOCK_NN]
+            outs_idx = pid * stride_out_0 + (b_base + start + tl.arange(0, BLOCK_NN)) * stride_out_1
+
+            # Iterate over the embedding dimension in blocks
+            for d_start in range(0, D, BLOCK_DMODEL):
+                offs_d = d_start + tl.arange(0, BLOCK_DMODEL)
+                mask_d = offs_d < D
+
+                valid_mask = group_mask[:, None] & mask_d[None, :]
+
+                # Weight pointer: address strides: weight[tid, d_offs] = weight + tid * stride_w_0 + offs_d
+                weight_ptr = weight + tid[:, None] * stride_w_0 + offs_d[None, :]
+                emb_vec = tl.load(weight_ptr, mask=valid_mask, other=0.0)
+
+                # Output pointer: address strides
+                output_ptr = out + outs_idx[:, None] * stride_out_2 + offs_d[None, :]
+                tl.store(output_ptr, emb_vec, mask=valid_mask)
+
+# ---------------------------------------------------------------------------
+# Python wrapper
+# ---------------------------------------------------------------------------
+def embedding(
+    ids: torch.Tensor,      # [B, S]   long int
+    weight: torch.Tensor,   # [V, D]   float16 or float32
+) -> torch.Tensor:          # Returns: [B, S, D]
+    B, S = ids.shape
+    V, D = weight.shape
+    device = weight.device
+    dtype = weight.dtype
+
+    out = torch.empty((B, S, D), dtype=dtype, device=device)
+
+    BLOCK_N = 64
+    BLOCK_NN = 64
+    BLOCK_DMODEL = triton.next_power_of_2(D)
+
+    grid = (B,)
+
+    embedding_kernel[grid](
+        ids,                     # int64
+        weight,                  # fp16 / fp32
+        out,                     # fp16 / fp32
+        B,
+        S,
+        V,
+        D,
+        ids.stride(0),
+        weight.stride(0),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py.stdout
new file mode 100644
index 0000000..6ea3fa0
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_507685.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_507685 due to embedding() takes 2 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py
new file mode 100644
index 0000000..0f773e9
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py
@@ -0,0 +1,226 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    token_ids,
+    weight,
+    out,
+    stride_b,
+    stride_l,
+    stride_v,
+    stride_d,
+    stride_ob,
+    stride_ol,
+    vob_start_id,
+    vob_end_id,
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr
+):
+    pid_batch = tl.program_id(0)
+    pid_dim = tl.program_id(1)
+
+    cols_d = pid_dim * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    mask_d = cols_d < stride_d
+
+    rows_n_full = stride_l
+    for start_n in tl.range(0, rows_n_full, BLOCK_NN):
+        rows_n = start_n + tl.arange(0, BLOCK_NN)
+        mask_n = rows_n < rows_n_full
+
+        offset_ids = pid_batch * stride_b + rows_n
+        ids = tl.load(token_ids + offset_ids, mask=mask_n, other=0)
+
+        mask_valid = (ids >= vob_start_id) & (ids < vob_end_id)
+        safe_ids = tl.where(mask_valid, ids, 0)
+
+        emb_ptr = weight + (safe_ids[:, None] * stride_v + cols_d[None, :] * 1)
+        emb_vals = tl.load(emb_ptr, mask=(mask_n[:, None] & mask_d[None, :]), other=0.0)
+
+        out_ptr = out + (pid_batch * stride_ob + rows_n[:, None] * stride_ol + cols_d[None, :])
+        tl.store(out_ptr, emb_vals, mask=(mask_n[:, None] & mask_d[None, :]))
+
+
+def embedding(
+    token_ids: torch.Tensor,
+    weight: torch.Tensor,
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor
+) -> None:
+    assert token_ids.dtype in (torch.int64, torch.int32)
+    V, D = weight.shape
+    B = token_ids.numel() // token_ids.size(-1) if token_ids.ndim > 1 else 1
+    L = token_ids.size(-1)
+
+    if token_ids.ndim == 1:
+        assert out.numel() == L * D and out.size(-1) == D
+    else:
+        assert out.numel() == B * L * D and out.size(-1) == D
+
+    BLOCK_DMODEL = triton.next_power_of_2(D)
+    BLOCK_N = 32
+    BLOCK_NN = 256
+
+    if token_ids.ndim == 1:
+        token_ids = token_ids.contiguous()
+        out_view = out.view(L, D).contiguous()
+        grid = (1, triton.cdiv(D, BLOCK_DMODEL))
+        stride_b = 0
+        stride_l = L
+        stride_ob = 0
+        stride_ol = D
+    else:
+        token_ids = token_ids.view(B, L).contiguous()
+        out_view = out.view(B, L, D).contiguous()
+        grid = (B, triton.cdiv(D, BLOCK_DMODEL))
+        stride_b = token_ids.stride(0)
+        stride_l = token_ids.size(-1)
+        stride_ob = out_view.stride(0)
+        stride_ol = out_view.stride(1)
+
+    stride_v = weight.stride(0)
+    stride_d_true = D
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out_view,
+        stride_b,
+        stride_l,
+        stride_v,
+        stride_d_true,
+        stride_ob,
+        stride_ol,
+        vob_start_id,
+        vob_end_id,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py.stdout
new file mode 100644
index 0000000..42e34f8
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_524778.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: embedding_triton_kernel.py_gen_triton_code_524778.py
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py
new file mode 100644
index 0000000..e742370
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py
@@ -0,0 +1,188 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(indexes, weight, out, stride_idx_b,
+                     stride_idx_s, stride_wt_v, stride_wd,
+                     stride_ot_b, stride_ot_s, stride_ot_d,
+                     VOCAB_SIZE: tl.constexpr, D_MODEL: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr):
+    pid_b = tl.program_id(0)
+    pid_s = tl.program_id(1)
+    pid_d = tl.program_id(2)
+
+    seq_start = pid_s * BLOCK_N
+    d_start = pid_d * BLOCK_NN
+
+    idx_base = pid_b * stride_idx_b + seq_start * stride_idx_s
+    valid_seq_len = tl.load(indexes + idx_base)
+    valid_seq_len = tl.minimum(valid_seq_len, BLOCK_N)
+
+    offs_s = seq_start + tl.arange(0, BLOCK_N)
+    offs_d = d_start + tl.arange(0, BLOCK_NN)
+
+    mask_seq = offs_s < (seq_start + valid_seq_len)
+    mask_d = offs_d < D_MODEL
+
+    idx_ptr = indexes + idx_base + offs_s * stride_idx_s
+    token_ids = tl.load(idx_ptr, mask=mask_seq, other=0)
+
+    w_offs = (token_ids[:, None] * stride_wt_v) + (offs_d[None, :] * stride_wd)
+    emb_vec = tl.load(weight + w_offs, mask=mask_seq[:, None] & mask_d[None, :], other=0.0)
+
+    o_offs = (pid_b * stride_ot_b) + (offs_s * stride_ot_s)[:, None] + (offs_d * stride_ot_d)[None, :]
+    tl.store(out + o_offs, emb_vec, mask=mask_seq[:, None] & mask_d[None, :])
+
+
+def embedding(indexes: torch.Tensor, weight: torch.Tensor, out: torch.Tensor = None) -> torch.Tensor:
+    B, S = indexes.shape
+    VOCAB_SIZE, D_MODEL = weight.shape
+
+    out = torch.empty((B, S, D_MODEL), dtype=weight.dtype, device=weight.device) if out is None else out
+
+    BLOCK_N = 64
+    BLOCK_NN = min(64, triton.next_power_of_2(D_MODEL))
+
+    assert indexes.is_contiguous()
+    assert weight.is_contiguous()
+    assert out.is_contiguous()
+
+    grid = (B, triton.cdiv(S, BLOCK_N), triton.cdiv(D_MODEL, BLOCK_NN))
+
+    embedding_kernel[grid](
+        indexes, weight, out,
+        indexes.stride(0), indexes.stride(1),
+        weight.stride(0), weight.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        VOCAB_SIZE=VOCAB_SIZE,
+        D_MODEL=D_MODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py.stdout
new file mode 100644
index 0000000..848b09e
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_533885.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_533885 due to embedding() takes from 2 to 3 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py
new file mode 100644
index 0000000..4fb1bab
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py
@@ -0,0 +1,231 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    ids,             # [B, L]
+    weight,          # [V, D]
+    out,             # [B, L, D]
+    stride_ids_b,
+    stride_ids_l,
+    stride_weight_v,
+    stride_weight_d,
+    stride_out_b,
+    stride_out_l,
+    stride_out_d,
+    vob_start_id,
+    V,
+    D,
+    BLOCK_L: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_b = tl.program_id(0)
+    pid_l = tl.program_id(1) * BLOCK_L
+    pid_d = tl.program_id(2) * BLOCK_D
+
+    offs_l = pid_l + tl.arange(0, BLOCK_L)
+    offs_d = pid_d + tl.arange(0, BLOCK_D)
+
+    mask_l = offs_l < ids.shape[1]
+    mask_d = offs_d < D
+
+    ids_ptrs = ids + pid_b * stride_ids_b + offs_l * stride_ids_l
+    idx = tl.load(ids_ptrs, mask=mask_l, other=0).to(tl.int32)
+    idx = idx - vob_start_id
+    idx = idx[:, None]
+
+    w_ptrs = (
+        weight
+        + idx * stride_weight_v
+        + offs_d[None, :] * stride_weight_d
+    )
+
+    mask_v = (idx >= 0) & (idx < V)
+    mask = mask_l[:, None] & mask_d[None, :] & mask_v
+
+    embs = tl.load(w_ptrs, mask=mask, other=0.0)
+    out_ptrs = (
+        out
+        + pid_b * stride_out_b
+        + offs_l[:, None] * stride_out_l
+        + offs_d[None, :] * stride_out_d
+    )
+    tl.store(out_ptrs, embs, mask=mask_l[:, None] & mask_d[None, :] & mask_v)
+
+def embedding(
+    ids: torch.Tensor,
+    weight: torch.Tensor,
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor,
+) -> torch.Tensor:
+    assert ids.dtype in (torch.int32, torch.int64)
+    assert weight.ndim == 2
+    inferred_D = weight.shape[1]
+    if out.numel() == 0:
+        out = torch.empty((*ids.shape, inferred_D), dtype=weight.dtype, device=weight.device)
+    else:
+        assert out.shape[:-1] == ids.shape
+        assert out.shape[-1] == inferred_D
+
+    B = ids.shape[0]
+    L = ids.numel() // B
+    D = inferred_D
+    V = vob_end_id - vob_start_id
+    assert V <= weight.shape[0]
+
+    ids = ids.view(B, L)
+    out = out.view(B, L, D)
+
+    BLOCK_L = 64
+    BLOCK_D = triton.next_power_of_2(D)
+
+    grid = (
+        B,
+        triton.cdiv(L, BLOCK_L),
+        triton.cdiv(D, BLOCK_D),
+    )
+
+    embedding_kernel[grid](
+        ids,
+        weight,
+        out,
+        ids.stride(0),
+        ids.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        vob_start_id,
+        V,
+        D,
+        BLOCK_L=BLOCK_L,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py.stdout
new file mode 100644
index 0000000..9c7addd
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_552958.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_552958 due to at 25:22:
+    D,
+    BLOCK_L: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_b = tl.program_id(0)
+    pid_l = tl.program_id(1) * BLOCK_L
+    pid_d = tl.program_id(2) * BLOCK_D
+
+    offs_l = pid_l + tl.arange(0, BLOCK_L)
+    offs_d = pid_d + tl.arange(0, BLOCK_D)
+
+    mask_l = offs_l < ids.shape[1]
+                      ^
+IndexError('list index out of range')
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py
new file mode 100644
index 0000000..77c1639
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py
@@ -0,0 +1,210 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(
+    token_ids_ptr,        # pointer to 1-D int32 token_ids
+    weight_ptr,           # pointer to 2-D float weights  (vocab, d_model)
+    out_ptr,              # pointer to 2-D output         (seq_len, d_model)
+    seq_len,              # int
+    d_model,              # int
+    vob_start_id,         # int
+    vob_end_id,           # int
+    stride_id,            # int
+    stride_w0,            # int
+    stride_w1,            # int
+    stride_out0,          # int
+    stride_out1,          # int
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid_seq = tl.program_id(0)
+    pid_col = tl.program_id(1)
+
+    if pid_seq >= seq_len:
+        return
+
+    # token id for this sequence position
+    token_id = tl.load(token_ids_ptr + pid_seq * stride_id)
+    valid = (token_id >= vob_start_id) & (token_id < vob_end_id)
+    tok_id_off = (token_id - vob_start_id) * stride_w0   # row offset
+
+    cols = pid_col * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    d_mask = cols < d_model
+
+    weight_off = tok_id_off + cols * stride_w1
+    val = tl.load(weight_ptr + weight_off, mask=d_mask & valid, other=0.0)
+
+    out_off = pid_seq * stride_out0 + cols * stride_out1
+    tl.store(out_ptr + out_off, val, mask=d_mask)
+
+
+def embedding(
+    token_ids: torch.Tensor,
+    weight: torch.Tensor,
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor = None,
+) -> torch.Tensor:
+    """
+    Extract embedding vectors for each token-id in `token_ids` using 2-D matrix `weight`.
+
+    token_ids : torch.int32 shape(SEQ_LEN,) with values in [vob_start_id, vob_end_id)
+    weight    : weight[vocab, d_model]  (slice assumed to start at vocab 0)
+    """
+
+    seq_len, = token_ids.shape
+    vocab_size, d_model = weight.shape
+    assert token_ids.dtype == torch.int32
+    assert weight.dtype in (torch.float16, torch.float32)
+    assert weight.is_contiguous()
+
+    if out is None:
+        out = torch.empty((seq_len, d_model), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_DMODEL = triton.next_power_of_2(d_model)
+
+    grid = (seq_len, triton.cdiv(d_model, BLOCK_DMODEL))
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out,
+        seq_len,
+        d_model,
+        vob_start_id,
+        vob_end_id,
+        token_ids.stride(0) if token_ids.dim() == 1 else 1,
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_574109.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py
new file mode 100644
index 0000000..7d4854d
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py
@@ -0,0 +1,225 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    ptr_ids,         # 1d raw pointer
+    ptr_weight,      # 1d raw pointer
+    ptr_out,         # 1d raw pointer
+    stride_ids_b,
+    stride_ids_l,
+    stride_weight_v,
+    stride_weight_d,
+    stride_out_b,
+    stride_out_l,
+    stride_out_d,
+    vob_start_id,
+    B,
+    L,
+    D,
+    V,
+    BLOCK_L: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_b = tl.program_id(0)
+    pid_l_blk = tl.program_id(1)
+    pid_d_blk = tl.program_id(2)
+
+    offs_l = pid_l_blk * BLOCK_L + tl.arange(0, BLOCK_L)
+    offs_d = pid_d_blk * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_l = offs_l < L
+    mask_d = offs_d < D
+
+    ids_base = ptr_ids + pid_b * stride_ids_b
+    idxs = tl.load(ids_base + offs_l * stride_ids_l,
+                   mask=mask_l, other=0).to(tl.int32)
+    idxs = idxs - vob_start_id
+    idxs = idxs[:, None]
+
+    w_base = ptr_weight
+    w_row_stride = stride_weight_v
+    w_col_stride = stride_weight_d
+    weight_ptrs = w_base + \
+        idxs * w_row_stride + offs_d[None, :] * w_col_stride
+
+    mask_v = (idxs >= 0) & (idxs < V)
+    mask = mask_l[:, None] & mask_d[None, :] & mask_v
+
+    embs = tl.load(weight_ptrs, mask=mask, other=0.0)
+
+    out_base = ptr_out + pid_b * stride_out_b
+    out_ptrs = out_base + \
+        offs_l[:, None] * stride_out_l + offs_d[None, :] * stride_out_d
+    tl.store(out_ptrs, embs, mask=mask)
+
+def embedding(
+    ids: torch.Tensor,
+    weight: torch.Tensor,
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor,
+) -> torch.Tensor:
+    assert ids.dtype in (torch.int32, torch.int64)
+    assert weight.ndim == 2
+    inferred_D = weight.shape[1]
+    if out.numel() == 0:
+        out = torch.empty((*ids.shape, inferred_D), dtype=weight.dtype, device=weight.device)
+    else:
+        assert out.shape[:-1] == ids.shape
+        assert out.shape[-1] == inferred_D
+
+    B = ids.shape[0]
+    L = ids.shape[1] if ids.ndim == 2 else 1
+    ids = ids.view(B, L)
+    out = out.view(B, L, inferred_D)
+
+    D = inferred_D
+    V = vob_end_id - vob_start_id
+    assert V <= weight.shape[0]
+
+    BLOCK_L = 64
+    BLOCK_D = triton.next_power_of_2(D)
+
+    grid = (B, triton.cdiv(L, BLOCK_L), triton.cdiv(D, BLOCK_D))
+
+    embedding_kernel[grid](
+        ids, weight, out,
+        ids.stride(0),
+        ids.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        vob_start_id,
+        B, L, D, V,
+        BLOCK_L=BLOCK_L,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_58716.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py
new file mode 100644
index 0000000..66ea5f3
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py
@@ -0,0 +1,182 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(token_ids_ptr, out_ptr, weight_ptr,
+                     stride_tokens, stride_outb, stride_outs, stride_outd,
+                     stride_weightv, stride_weightd,
+                     vocab_size: tl.constexpr, hidden_size: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr):
+    pid_b = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_bn = pid_b * stride_outb
+    offs_nn = pid_n * BLOCK_NN
+
+    seq_len = tl.load(token_ids_ptr + pid_b * stride_tokens).to(tl.int32)
+
+    for start_n in range(0, seq_len, BLOCK_N):
+        offs_tok = start_n + tl.arange(0, BLOCK_N)
+        mask_tok = offs_tok < seq_len
+        tok_ids = tl.load(token_ids_ptr + offs_bn + offs_tok * stride_tokens, mask=mask_tok, other=0)
+
+        for start_d in range(0, hidden_size, BLOCK_NN):
+            offs_d = start_d + tl.arange(0, BLOCK_NN)
+            mask_d = offs_d < hidden_size
+            offs_weight = tok_ids[:, None] * stride_weightv + offs_d[None, :] * stride_weightd
+            mask_weight = mask_tok[:, None] & mask_d[None, :]
+            embedded = tl.load(weight_ptr + offs_weight, mask=mask_weight, other=0.0)
+
+            offs_out = (offs_bn + offs_tok[:, None] * stride_outs + offs_d[None, :] * stride_outd)
+            mask_out = mask_tok[:, None] & mask_d[None, :]
+            tl.store(out_ptr + offs_out, embedded, mask=mask_out)
+
+
+def embedding(token_ids: torch.Tensor, weights: torch.Tensor, vob_start_id=None, vob_end_id=None, out: torch.Tensor = None) -> torch.Tensor:
+    b, seq = token_ids.shape
+    vocab_size, hidden_size = weights.shape
+    assert weights.dtype in [torch.float16, torch.float32]
+    assert token_ids.dtype in [torch.int32, torch.int64]
+
+    if out is None:
+        out = torch.empty((b, seq, hidden_size), dtype=weights.dtype, device=weights.device)
+
+    BLOCK_N = 64
+    BLOCK_NN = min(128, triton.next_power_of_2(hidden_size))
+
+    grid = (b, triton.cdiv(seq, BLOCK_N))
+
+    embedding_kernel[grid](
+        token_ids, out, weights,
+        token_ids.stride(0), out.stride(0), out.stride(1), out.stride(2),
+        weights.stride(0), weights.stride(1),
+        vocab_size, hidden_size,
+        BLOCK_N, BLOCK_NN
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py.stdout
new file mode 100644
index 0000000..0da5f55
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_600998.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_600998 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py
new file mode 100644
index 0000000..bbd01e5
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py
@@ -0,0 +1,190 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(weight_ptr,
+                     ids_ptr,
+                     out_ptr,
+                     stride_w,
+                     stride_out,
+                     num_tokens,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_NN: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr):
+    pid = tl.program_id(0)        # token block
+    pid_d = tl.program_id(1)      # d-model block
+    start_token = pid * BLOCK_NN
+
+    ids = tl.load(ids_ptr + start_token + tl.arange(0, BLOCK_NN))
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+
+    mask_tokens = start_token + tl.arange(0, BLOCK_NN) < num_tokens
+    mask_d = offs_d < stride_w
+
+    for i in range(BLOCK_NN):
+        if not mask_tokens[i]:
+            break
+        token_id = ids[i]
+        w_off = token_id * stride_w + offs_d
+        vec = tl.load(weight_ptr + w_off, mask=mask_d)
+        o_off = (start_token + i) * stride_out + offs_d
+        tl.store(out_ptr + o_off, vec, mask=mask_d)
+
+
+def embedding(weight: torch.Tensor,
+              ids: torch.Tensor,
+              out: torch.Tensor,
+              BLOCK_N: int = 1,
+              BLOCK_NN: int = 32,
+              BLOCK_DMODEL: int = None):
+    assert weight.ndim == 2
+    assert ids.ndim == 1
+    assert out.ndim == 2
+    assert out.shape == (ids.shape[0], weight.shape[1])
+
+    _, d_model = weight.shape
+    num_tokens = ids.numel()
+
+    if BLOCK_DMODEL is None:
+        BLOCK_DMODEL = triton.next_power_of_2(d_model)
+
+    grid = (triton.cdiv(num_tokens, BLOCK_NN),
+            triton.cdiv(d_model, BLOCK_DMODEL))
+    embedding_kernel[grid](
+        weight,
+        ids,
+        out,
+        stride_w=weight.stride(0),
+        stride_out=out.stride(0),
+        num_tokens=num_tokens,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py.stdout
new file mode 100644
index 0000000..b69f644
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_605163.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_605163 due to 
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py
new file mode 100644
index 0000000..cfdc332
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py
@@ -0,0 +1,178 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(
+    out_ptr, ids_ptr, weight_ptr,
+    stride_os, stride_om,
+    stride_ws, stride_wm,
+    N, D_MODEL,
+    BLOCK_N: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    rows_seq = pid * BLOCK_N + tl.arange(0, BLOCK_N)
+    mask_rows = rows_seq < N
+
+    token_ids = tl.load(ids_ptr + rows_seq, mask=mask_rows, other=0)
+    # Mask out-of-range indices to 0 to prevent invalid reads
+    token_ids = tl.where((token_ids >= 0) & (token_ids < stride_ws), token_ids, 0)
+
+    cols_d = tl.arange(0, BLOCK_DMODEL)
+    mask_cols = cols_d < D_MODEL
+
+    w_ptrs = weight_ptr + (token_ids[:, None] * stride_ws + cols_d[None, :] * stride_wm)
+    x = tl.load(w_ptrs, mask=mask_rows[:, None] & mask_cols[None, :], other=0.0)
+
+    o_ptrs = out_ptr + (rows_seq[:, None] * stride_os + cols_d[None, :] * stride_om)
+    tl.store(o_ptrs, x, mask=mask_rows[:, None] & mask_cols[None, :])
+
+
+def embedding(ids: torch.Tensor, weight: torch.Tensor,
+              out: torch.Tensor = None) -> torch.Tensor:
+    ids = ids.contiguous()
+    N = ids.numel()
+    D_MODEL = weight.shape[-1]
+
+    if out is None:
+        out = torch.empty((N, D_MODEL), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_N = 32
+    BLOCK_DMODEL = triton.next_power_of_2(D_MODEL)
+    grid = lambda meta: (triton.cdiv(N, meta['BLOCK_N']),)
+
+    embedding_kernel[grid](
+        out, ids, weight,
+        out.stride(0), out.stride(1),
+        weight.stride(0), weight.stride(1),
+        N, D_MODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py.stdout
new file mode 100644
index 0000000..1840465
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_620455.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_620455 due to embedding() takes from 2 to 3 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py
new file mode 100644
index 0000000..fc47731
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py
@@ -0,0 +1,182 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(token_ids_ptr, out_ptr, weight_ptr,
+                     stride_tokens, stride_outb, stride_outs, stride_outd,
+                     stride_weightv, stride_weightd,
+                     vocab_size: tl.constexpr, hidden_size: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr):
+    pid_b = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_bn = pid_b * stride_outb
+    offs_nn = pid_n * BLOCK_NN
+
+    seq_len = tl.load(token_ids_ptr + pid_b * stride_tokens).to(tl.int32)
+
+    for start_n in range(0, seq_len, BLOCK_N):
+        offs_tok = start_n + tl.arange(0, BLOCK_N)
+        mask_tok = offs_tok < seq_len
+        tok_ids = tl.load(token_ids_ptr + offs_bn + offs_tok * stride_tokens, mask=mask_tok, other=0)
+
+        for start_d in range(0, hidden_size, BLOCK_NN):
+            offs_d = start_d + tl.arange(0, BLOCK_NN)
+            mask_d = offs_d < hidden_size
+            offs_weight = tok_ids[:, None] * stride_weightv + offs_d[None, :] * stride_weightd
+            mask_weight = mask_tok[:, None] & mask_d[None, :]
+            embedded = tl.load(weight_ptr + offs_weight, mask=mask_weight, other=0.0)
+
+            offs_out = (offs_bn + offs_tok[:, None] * stride_outs + offs_d[None, :] * stride_outd)
+            mask_out = mask_tok[:, None] & mask_d[None, :]
+            tl.store(out_ptr + offs_out, embedded, mask=mask_out)
+
+
+def embedding(token_ids: torch.Tensor, weights: torch.Tensor, out: torch.Tensor = None) -> torch.Tensor:
+    b, seq = token_ids.shape
+    vocab_size, hidden_size = weights.shape
+    assert weights.dtype in [torch.float16, torch.float32]
+    assert token_ids.dtype in [torch.int32, torch.int64]
+
+    if out is None:
+        out = torch.empty((b, seq, hidden_size), dtype=weights.dtype, device=weights.device)
+
+    BLOCK_N = 64
+    BLOCK_NN = min(128, triton.next_power_of_2(hidden_size))
+
+    grid = (b, triton.cdiv(seq, BLOCK_N))
+
+    embedding_kernel[grid](
+        token_ids, out, weights,
+        token_ids.stride(0), out.stride(0), out.stride(1), out.stride(2),
+        weights.stride(0), weights.stride(1),
+        vocab_size, hidden_size,
+        BLOCK_N, BLOCK_NN
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py.stdout
new file mode 100644
index 0000000..60eaafa
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_635331.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_635331 due to embedding() takes from 2 to 3 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py
new file mode 100644
index 0000000..fa3672f
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py
@@ -0,0 +1,189 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(
+    out_ptr, ids_ptr, weight_ptr,
+    stride_os, stride_om,
+    stride_ws, stride_wm,
+    N, D_MODEL,
+    BLOCK_N: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    rows_seq = pid * BLOCK_N + tl.arange(0, BLOCK_N)
+    mask_rows = rows_seq < N
+
+    token_ids = tl.load(ids_ptr + rows_seq, mask=mask_rows, other=-1)
+
+    cols_d = tl.arange(0, BLOCK_DMODEL)
+    mask_cols = cols_d < D_MODEL
+
+    mask_valid = mask_rows[:, None] & mask_cols[None, :] & (
+        token_ids[:, None] >= 0) & (token_ids[:, None] < stride_ws)
+
+    w_ptrs = weight_ptr + (
+        token_ids[:, None] * stride_ws + cols_d[None, :] * stride_wm)
+    x = tl.load(w_ptrs, mask=mask_valid, other=0.0)
+
+    o_ptrs = out_ptr + (rows_seq[:, None] * stride_os +
+                        cols_d[None, :] * stride_om)
+    tl.store(o_ptrs, x, mask=mask_valid)
+
+
+def embedding(ids: torch.Tensor, weight: torch.Tensor,
+              vob_start_id: int = 0, vob_end_id: int = None,
+              out: torch.Tensor = None) -> torch.Tensor:
+    ids = ids.contiguous()
+    N = ids.numel()
+    D_MODEL = weight.shape[-1]
+
+    if vob_end_id is None:
+        vob_end_id = weight.shape[0]
+
+    if out is None:
+        out = torch.empty((N, D_MODEL), dtype=weight.dtype,
+                          device=weight.device)
+
+    if N == 0:
+        return out
+
+    BLOCK_N = 32
+    BLOCK_DMODEL = triton.next_power_of_2(D_MODEL)
+    grid = lambda meta: (triton.cdiv(N, meta['BLOCK_N']),)
+
+    embedding_kernel[grid](
+        out, ids, weight,
+        out.stride(0), out.stride(1),
+        weight.stride(0), weight.stride(1),
+        N, D_MODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py.stdout
new file mode 100644
index 0000000..820f029
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_64602.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: embedding_triton_kernel.py_gen_triton_code_64602.py
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py
new file mode 100644
index 0000000..2adf69f
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py
@@ -0,0 +1,205 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    token_ids,                   # [B, L] int64
+    weight,                      # [V, D] any
+    out,                         # [B, L, D]
+    stride_b,    stride_l,       # token_ids strides
+    stride_v,    stride_d,       # weight strides
+    stride_ob,   stride_ol,      # out strides
+    vob_start_id,                # lower inclusive vocab bound
+    vob_end_id,                  # upper exclusive vocab bound
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr
+):
+    pid_batch = tl.program_id(0)
+    pid_dim   = tl.program_id(1)
+
+    cols_d    = pid_dim * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    mask_d    = cols_d < stride_d              # mask along D
+
+    for start_l in tl.range(0, stride_l, BLOCK_NN):
+        cols_l = start_l + tl.arange(0, BLOCK_NN)  # [BLOCK_NN]
+        mask_l = cols_l < stride_l                 # mask along L
+
+        offset_ids = pid_batch * stride_b + cols_l # [BLOCK_NN]
+        ids = tl.load(token_ids + offset_ids, mask=mask_l)  # [BLOCK_NN]
+
+        # clamp to valid range; then mask ids that are out-of-vocabulary bounds
+        ids = tl.where((ids >= vob_start_id) & (ids < vob_end_id), ids, vob_start_id)
+        valid_mask = (ids >= vob_start_id) & (ids < vob_end_id)
+
+        offset_weight  = ids[:, None] * stride_v + cols_d[None, :]     # [BLOCK_NN, BLOCK_DMODEL]
+        vals          = tl.load(weight + offset_weight,
+                                mask=mask_l[:, None] & mask_d[None, :] & valid_mask[:, None])
+
+        offset_out    = pid_batch * stride_ob + cols_l[:, None] * stride_ol + \
+                        cols_d[None, :]                 # [BLOCK_NN, BLOCK_DMODEL]
+        tl.store(out + offset_out,
+                 vals,
+                 mask=mask_l[:, None] & mask_d[None, :])
+
+
+def embedding(token_ids: torch.Tensor,
+              weight: torch.Tensor,
+              vob_start_id: int,
+              vob_end_id: int,
+              out: torch.Tensor) -> None:
+    assert token_ids.device == weight.device == out.device
+    assert token_ids.is_cuda or token_ids.device.type == "cuda"
+    assert token_ids.dtype is torch.int64
+    assert weight.ndim == 2 and out.ndim == 3
+    V, D = weight.shape
+    B, L = token_ids.shape
+    assert out.shape == (B, L, D)
+
+    BLOCK_DMODEL = triton.next_power_of_2(D)
+    BLOCK_N      = 32        # optimal warp granularity
+    BLOCK_NN     = 256       # sequence span loaded per program
+
+    grid = (B, triton.cdiv(D, BLOCK_DMODEL))
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out,
+        token_ids.stride(0),
+        token_ids.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        vob_start_id,
+        vob_end_id,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py.stdout
new file mode 100644
index 0000000..0b3a539
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_68534.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_68534 due to 
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py
new file mode 100644
index 0000000..86d64b9
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py
@@ -0,0 +1,191 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(token_ids_ptr, out_ptr, weight_ptr,
+                     stride_tokens, stride_outb, stride_outs, stride_outd,
+                     stride_weightv, stride_weightd,
+                     vocab_size: tl.constexpr, hidden_size: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr):
+    pid_b = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_bn = pid_b * stride_outb
+    offs_nn = pid_n * BLOCK_NN
+
+    seq_len = tl.load(token_ids_ptr + pid_b * stride_tokens).to(tl.int32)
+
+    for start_n in range(0, seq_len, BLOCK_N):
+        offs_tok = start_n + tl.arange(0, BLOCK_N)
+        mask_tok = offs_tok < seq_len
+        tok_ids = tl.load(token_ids_ptr + offs_bn + offs_tok * stride_tokens, mask=mask_tok, other=0)
+
+        for start_d in range(0, hidden_size, BLOCK_NN):
+            offs_d = start_d + tl.arange(0, BLOCK_NN)
+            mask_d = offs_d < hidden_size
+            offs_weight = tok_ids[:, None] * stride_weightv + offs_d[None, :] * stride_weightd
+            mask_weight = mask_tok[:, None] & mask_d[None, :]
+            embedded = tl.load(weight_ptr + offs_weight, mask=mask_weight, other=0.0)
+
+            offs_out = (offs_bn + offs_tok[:, None] * stride_outs + offs_d[None, :] * stride_outd)
+            mask_out = mask_tok[:, None] & mask_d[None, :]
+            tl.store(out_ptr + offs_out, embedded, mask=mask_out)
+
+
+def embedding(token_ids: torch.Tensor, weights: torch.Tensor, vob_start_id=None, vob_end_id=None,
+              out: torch.Tensor = None) -> torch.Tensor:
+    if token_ids.dim() == 1:
+        token_ids = token_ids.unsqueeze(0)
+    elif token_ids.dim() != 2:
+        raise ValueError("token_ids should be 1-D or 2-D tensor")
+
+    vocab_size, hidden_size = weights.shape
+    batch, seq = token_ids.shape
+    assert weights.dtype in [torch.float16, torch.float32]
+    assert token_ids.dtype in [torch.int32, torch.int64]
+
+    if out is None:
+        out = torch.empty((batch, seq, hidden_size), dtype=weights.dtype, device=weights.device)
+
+    # Prepare tensor holding seq lengths
+    seq_len = torch.full((batch,), seq, dtype=torch.int32, device=token_ids.device)
+
+    BLOCK_N = 64
+    BLOCK_NN = min(128, triton.next_power_of_2(hidden_size))
+
+    grid = (batch, triton.cdiv(seq, BLOCK_N))
+
+    embedding_kernel[grid](
+        seq_len, out, weights,
+        seq_len.stride(0), out.stride(0), out.stride(1), out.stride(2),
+        weights.stride(0), weights.stride(1),
+        vocab_size, hidden_size,
+        BLOCK_N, BLOCK_NN
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py.stdout
new file mode 100644
index 0000000..7228cc8
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_713720.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_713720 due to Dimension out of range (expected to be in range of [-2, 1], but got 2)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py
new file mode 100644
index 0000000..cc0ea63
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py
@@ -0,0 +1,232 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(
+    ids,              # int32/64 [B, L]
+    weight,           # fp*      [V, D]
+    out,              # fp*      [B, L, D]
+    stride_ids_b,     # tl.constexpr ignores run-time values
+    stride_ids_l,
+    stride_weight_v,
+    stride_weight_d,
+    stride_out_b,
+    stride_out_l,
+    stride_out_d,
+    V,
+    D,
+    BLOCK_L: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_b = tl.program_id(0)         # batch   dim
+    pid_l = tl.program_id(1) * BLOCK_L    # seq-len dim
+    pid_d = tl.program_id(2) * BLOCK_D    # embed dim
+
+    # Compute ranges
+    offs_l = pid_l + tl.arange(0, BLOCK_L)     # [BLOCK_L]
+    offs_d = pid_d + tl.arange(0, BLOCK_D)     # [BLOCK_D]
+
+    mask_l = offs_l < ids.shape[1]             # [BLOCK_L]
+    mask_d = offs_d < D                        # [BLOCK_D]
+
+    # --- Load token ids for this tile -------------------------------------------------
+    ids_ptr = ids + pid_b * stride_ids_b + offs_l * stride_ids_l    # [BLOCK_L]
+    idx = tl.load(ids_ptr, mask=mask_l, other=0).to(tl.int32)               # [BLOCK_L]
+
+    # Broadcast ids for weight lookup
+    # idx: [BLOCK_L] -> [BLOCK_L, 1]
+    idx = idx[:, None]
+
+    # --- Load weight rows -------------------------------------------------------------
+    w_ptrs = (
+        weight
+        + idx * stride_weight_v              # broadcast: [BLOCK_L, 1] * stride
+        + offs_d[None, :] * stride_weight_d  # broadcast: [1, BLOCK_D] * stride
+    )  # -> [BLOCK_L, BLOCK_D]
+
+    mask_v = (idx >= 0) & (idx < V)          # row-valid mask: [BLOCK_L, 1]
+    mask = mask_l[:, None] & mask_d[None, :] & mask_v
+
+    embs = tl.load(w_ptrs, mask=mask, other=0.0)   # [BLOCK_L, BLOCK_D]
+
+    # --- Store into output tensor ------------------------------------------------------
+    out_ptrs = (
+        out
+        + pid_b * stride_out_b
+        + offs_l[:, None] * stride_out_l
+        + offs_d[None, :] * stride_out_d
+    )  # [BLOCK_L, BLOCK_D]
+
+    tl.store(out_ptrs, embs, mask=mask_l[:, None] & mask_d[None, :])
+
+
+def embedding_forward(
+    ids: torch.Tensor,
+    weight: torch.Tensor,
+) -> torch.Tensor:
+    """
+    Triton-accelerated embedding lookup.
+    ids : [B, L] (int32/int64)
+    weight: [V, D]
+    returns: [B, L, D]
+    """
+    assert ids.dtype in {torch.int32, torch.int64}, "ids must be int32/int64"
+    assert weight.ndim == 2, "weight should be 2-D: [V, D]"
+
+    B, L = ids.shape
+    V, D = weight.shape
+    out = torch.empty((B, L, D), dtype=weight.dtype, device=weight.device)
+
+    # choose tile sizes that divide dimensions well
+    BLOCK_L = 64
+    BLOCK_D = triton.next_power_of_2(D)
+
+    grid = (
+        B,
+        triton.cdiv(L, BLOCK_L),
+        triton.cdiv(D, BLOCK_D),
+    )
+
+    embedding_kernel[grid](
+        ids,
+        weight,
+        out,
+        ids.stride(0),
+        ids.stride(1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        V,
+        D,
+        BLOCK_L=BLOCK_L,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py.stdout
new file mode 100644
index 0000000..fbb5315
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_721645.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_721645 due to name 'embedding' is not defined
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py
new file mode 100644
index 0000000..8f9f373
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py
@@ -0,0 +1,181 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(
+    out_ptr, ids_ptr, weight_ptr,
+    stride_os, stride_om,
+    stride_ws, stride_wm,
+    N, D_MODEL,
+    BLOCK_N: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    rows_seq = pid * BLOCK_N + tl.arange(0, BLOCK_N)
+    mask_rows = rows_seq < N
+
+    token_ids = tl.load(ids_ptr + rows_seq, mask=mask_rows, other=0)
+    token_ids = tl.where((token_ids >= 0) & (token_ids < stride_ws), token_ids, 0)
+
+    cols_d = tl.arange(0, BLOCK_DMODEL)
+    mask_cols = cols_d < D_MODEL
+
+    w_ptrs = weight_ptr + (token_ids[:, None] * stride_ws + cols_d[None, :] * stride_wm)
+    x = tl.load(w_ptrs, mask=mask_rows[:, None] & mask_cols[None, :], other=0.0)
+
+    o_ptrs = out_ptr + (rows_seq[:, None] * stride_os + cols_d[None, :] * stride_om)
+    tl.store(o_ptrs, x, mask=mask_rows[:, None] & mask_cols[None, :])
+
+
+def embedding(ids: torch.Tensor, weight: torch.Tensor,
+              vob_start_id: int = 0, vob_end_id: int = None,
+              out: torch.Tensor = None) -> torch.Tensor:
+    ids = ids.contiguous()
+    N = ids.numel()
+    D_MODEL = weight.shape[-1]
+
+    if vob_end_id is None:
+        vob_end_id = weight.shape[0]
+
+    if out is None:
+        out = torch.empty((N, D_MODEL), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_N = 32
+    BLOCK_DMODEL = triton.next_power_of_2(D_MODEL)
+    grid = lambda meta: (triton.cdiv(N, meta['BLOCK_N']),)
+
+    embedding_kernel[grid](
+        out, ids, weight,
+        out.stride(0), out.stride(1),
+        weight.stride(0), weight.stride(1),
+        N, D_MODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py.stdout
new file mode 100644
index 0000000..b1cb2da
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_759146.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: embedding_triton_kernel.py_gen_triton_code_759146.py
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py
new file mode 100644
index 0000000..3a694b1
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py
@@ -0,0 +1,197 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(token_ids_ptr, out_ptr, weight_ptr,
+                     stride_tokens_b, stride_tokens_s,
+                     stride_out_b, stride_out_s, stride_out_d,
+                     stride_weight_v, stride_weight_d,
+                     seq_len, vocab_size, hidden_size,
+                     BLOCK_N: tl.constexpr, BLOCK_D: tl.constexpr):
+    pid_b = tl.program_id(0)           # batch
+    pid_n = tl.program_id(1)           # sequence block
+
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)   # [BLOCK_N]
+
+    token_ptr = token_ids_ptr + pid_b * stride_tokens_b + offs_n * stride_tokens_s
+    mask_n = offs_n < seq_len
+    tok_ids = tl.load(token_ptr, mask=mask_n, other=0)   # [BLOCK_N] int32
+
+    for start_d in range(0, hidden_size, BLOCK_D):
+        offs_d = start_d + tl.arange(0, BLOCK_D)          # [BLOCK_D]
+
+        mask_d = offs_d < hidden_size
+        mask_w = mask_n[:, None] & mask_d[None, :]
+
+        # weight: [v, h]  => gather[token, :]   => [BLOCK_N, BLOCK_D]
+        w_offs = tok_ids[:, None] * stride_weight_v + offs_d[None, :] * stride_weight_d
+        emb = tl.load(weight_ptr + w_offs, mask=mask_w, other=0.0)
+
+        # out   : [b, seq, h]
+        o_offs = pid_b * stride_out_b + offs_n[:, None] * stride_out_s + offs_d[None, :] * stride_out_d
+        tl.store(out_ptr + o_offs, emb, mask=mask_w)
+
+
+def embedding(token_ids: torch.Tensor, weights: torch.Tensor,
+              out: torch.Tensor = None) -> torch.Tensor:
+    if token_ids.dim() == 1:
+        token_ids = token_ids.unsqueeze(0)
+    elif token_ids.dim() != 2:
+        raise ValueError("token_ids must be 1-D or 2-D")
+
+    vocab_size, hidden_size = weights.shape
+    batch, seq_len = token_ids.shape
+
+    if weights.dtype not in (torch.float16, torch.float32, torch.bfloat16):
+        raise TypeError("weights dtype must be fp16/fp32/bf16")
+    if token_ids.dtype not in (torch.int32, torch.int64):
+        raise TypeError("token_ids dtype must be int32/int64")
+
+    if out is None:
+        out = torch.empty((batch, seq_len, hidden_size),
+                          dtype=weights.dtype, device=weights.device)
+
+    token_ids = token_ids.contiguous()
+    weights   = weights.contiguous()
+    out       = out.contiguous()
+
+    BLOCK_N = 64
+    BLOCK_D = min(128, triton.next_power_of_2(hidden_size))
+
+    grid = (batch, triton.cdiv(seq_len, BLOCK_N))
+
+    embedding_kernel[grid](
+        token_ids, out, weights,
+        token_ids.stride(0), token_ids.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        weights.stride(0), weights.stride(1),
+        seq_len, vocab_size, hidden_size,
+        BLOCK_N=BLOCK_N, BLOCK_D=BLOCK_D
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py.stdout
new file mode 100644
index 0000000..41a52b4
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_764635.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_764635 due to embedding() takes from 2 to 3 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py
new file mode 100644
index 0000000..14e998d
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py
@@ -0,0 +1,188 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    token_ids,           # [B, L]
+    weight,              # [V, D]
+    out,                 # [B, L, D]
+    stride_b, stride_l, stride_v, stride_d,
+    BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr, BLOCK_DMODEL: tl.constexpr
+):
+    pid_batch = tl.program_id(0)
+    pid_dim = tl.program_id(1)
+
+    # Offset for D dimension in weight and out
+    cols_d = pid_dim * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    mask_d = cols_d < stride_d
+
+    # Iterate over sequence positions in strides of BLOCK_NN
+    for start_l in tl.range(0, stride_l, BLOCK_NN):
+        # Global sequence index
+        cols_l = start_l + tl.arange(0, BLOCK_NN)[:, None]  # [BLOCK_NN, 1]
+
+        # Build batch * sequence pointers to token_ids
+        off_ids = pid_batch * stride_b + cols_l  # [BLOCK_NN, 1]
+        mask_l = cols_l < stride_l
+        ids = tl.load(token_ids + off_ids, mask=mask_l)    # [BLOCK_NN, 1]
+
+        # Each id identifies a row in weight
+        # Compute pointer into weight: rows=[ids], cols=[cols_d]
+        off_weight = ids * stride_v + cols_d      # [BLOCK_NN, BLOCK_DMODEL]
+        vals = tl.load(weight + off_weight, mask=mask_l & mask_d)
+
+        # Store into out: [B, L, D]
+        off_out = (
+            pid_batch * stride_b          # batch stride
+            + cols_l      * stride_l      # seq stride
+            + cols_d      * 1            # dim stride
+        )
+        tl.store(out + off_out, vals, mask=mask_l & mask_d)
+
+
+def embedding(token_ids: torch.Tensor, weight: torch.Tensor) -> torch.Tensor:
+    assert token_ids.is_cuda or token_ids.device.type == "cuda", "inputs should live on GPU"
+    assert weight.dim() == 2
+    V, D = weight.shape
+    B, L = token_ids.shape
+    out = torch.empty((B, L, D), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_DMODEL = triton.next_power_of_2(D)
+    BLOCK_N = 32
+    BLOCK_NN = triton.next_power_of_2(256)  # load up to 256 sequence positions per program
+
+    grid = lambda META: (B, triton.cdiv(D, META["BLOCK_DMODEL"]))
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out,
+        token_ids.stride(0), token_ids.stride(1), weight.stride(0), weight.stride(1),
+        BLOCK_N=BLOCK_N, BLOCK_NN=BLOCK_NN, BLOCK_DMODEL=BLOCK_DMODEL
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py.stdout
new file mode 100644
index 0000000..6de004a
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_76684.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_76684 due to embedding() takes 2 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py
new file mode 100644
index 0000000..65ca966
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py
@@ -0,0 +1,190 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional
+
+
+@triton.jit
+def embedding_kernel(indexes, weight, out,
+                     stride_idx_b, stride_idx_s,
+                     stride_wt_v, stride_wd,
+                     stride_ot_b, stride_ot_s, stride_ot_d,
+                     VOCAB_SIZE: tl.constexpr, D_MODEL: tl.constexpr,
+                     BLOCK_N: tl.constexpr, BLOCK_NN: tl.constexpr, vob_start_id: tl.constexpr, vob_end_id: tl.constexpr):
+    pid_b = tl.program_id(0)
+    pid_s = tl.program_id(1)
+    pid_d = tl.program_id(2)
+
+    seq_start = pid_s * BLOCK_N
+    d_start = pid_d * BLOCK_NN
+
+    offs_s = seq_start + tl.arange(0, BLOCK_N)
+    offs_d = d_start + tl.arange(0, BLOCK_NN)
+
+    mask_seq = offs_s < (seq_start + BLOCK_N)
+    mask_d = offs_d < D_MODEL
+
+    idx_ptr = indexes + pid_b * stride_idx_b + offs_s * stride_idx_s
+    token_ids = tl.load(idx_ptr, mask=mask_seq, other=0)
+
+    clamp_low = tl.full_like(token_ids, vob_start_id)
+    clamp_high = tl.full_like(token_ids, vob_end_id - 1)
+    token_ids = tl.where(token_ids < vob_start_id, clamp_low, token_ids)
+    token_ids = tl.where(token_ids > (vob_end_id - 1), clamp_high, token_ids)
+    token_ids = token_ids - vob_start_id
+
+    w_offs = (token_ids[:, None] * stride_wt_v) + (offs_d[None, :] * stride_wd)
+    emb_vec = tl.load(weight + w_offs, mask=mask_seq[:, None] & mask_d[None, :], other=0.0)
+
+    o_offs = (pid_b * stride_ot_b) + (offs_s * stride_ot_s)[:, None] + (offs_d * stride_ot_d)[None, :]
+    tl.store(out + o_offs, emb_vec, mask=mask_seq[:, None] & mask_d[None, :])
+
+
+def embedding(indexes: torch.Tensor, weight: torch.Tensor, vob_start_id: int, vob_end_id: int, out: Optional[torch.Tensor] = None) -> torch.Tensor:
+    B, S = indexes.shape
+    VOCAB_SIZE, D_MODEL = weight.shape
+
+    out = torch.empty((B, S, D_MODEL), dtype=weight.dtype, device=weight.device) if out is None else out
+
+    BLOCK_N = min(64, triton.next_power_of_2(S))
+    BLOCK_NN = min(64, triton.next_power_of_2(D_MODEL))
+
+    grid = (B, triton.cdiv(S, BLOCK_N), triton.cdiv(D_MODEL, BLOCK_NN))
+
+    embedding_kernel[grid](
+        indexes, weight, out,
+        indexes.stride(0), indexes.stride(1),
+        weight.stride(0), weight.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        VOCAB_SIZE=VOCAB_SIZE,
+        D_MODEL=D_MODEL,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        vob_start_id=vob_start_id,
+        vob_end_id=vob_end_id
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py.stdout
new file mode 100644
index 0000000..b18d5c2
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_804525.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_804525 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py
new file mode 100644
index 0000000..709d7d8
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py
@@ -0,0 +1,195 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(input_ids_ptr,
+                     weight_ptr,
+                     out_ptr,
+                     vob_start_id: tl.constexpr,
+                     vob_end_id: tl.constexpr,
+                     stride_ids_0, stride_ids_1,
+                     stride_w_v, stride_w_d,
+                     stride_out_0, stride_out_1, stride_out_2,
+                     seq_len, vocab_size, dim,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr):
+    pid_d = tl.program_id(0)
+    pid_b = tl.program_id(1)
+
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+
+    row_start = pid_b * seq_len
+    for j in range(0, seq_len, BLOCK_N):
+        offs_n = j + tl.arange(0, BLOCK_N)
+
+        mask_n = offs_n < seq_len
+        flat_idx = row_start + offs_n
+        pid = tl.load(input_ids_ptr + flat_idx, mask=mask_n, other=0)
+
+        valid_id = (pid >= vob_start_id) & (pid < vob_end_id) & mask_n
+        real_id = pid - vob_start_id
+        real_id = tl.where(valid_id, real_id, 0)
+
+        w_off = real_id[:, None] * stride_w_v + offs_d[None, :] * stride_w_d
+        embed = tl.load(weight_ptr + w_off,
+                        mask=valid_id[:, None] & (offs_d[None, :] < dim))
+
+        o_off = pid_b * stride_out_0 + offs_n[:, None] * stride_out_1 + offs_d[None, :] * stride_out_2
+        tl.store(out_ptr + o_off,
+                 embed,
+                 mask=valid_id[:, None] & (offs_d[None, :] < dim))
+
+
+def embedding(input_ids: torch.Tensor,
+              weight: torch.Tensor,
+              vob_start_id: int,
+              vob_end_id: int,
+              out: torch.Tensor) -> torch.Tensor:
+    if input_ids.ndim == 1:
+        input_ids = input_ids.unsqueeze(0)
+    batch, seq_len = input_ids.shape
+    vocab_size, dim = weight.shape
+    assert out.shape == (batch, seq_len, dim)
+    assert weight.dtype == out.dtype
+
+    BLOCK_DMODEL = triton.next_power_of_2(dim)
+    BLOCK_N = 128
+    grid = (triton.cdiv(dim, BLOCK_DMODEL), batch)
+
+    embedding_kernel[grid](
+        input_ids, weight, out,
+        vob_start_id, vob_end_id,
+        input_ids.stride(0), input_ids.stride(1),
+        weight.stride(0), weight.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        seq_len, vocab_size, dim,
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py.stdout
new file mode 100644
index 0000000..e072cf0
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_823958.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_823958 due to 
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py
new file mode 100644
index 0000000..1a0bb5d
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py
@@ -0,0 +1,195 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(input_ids_ptr,
+                     weight_ptr,
+                     out_ptr,
+                     vob_start_id: tl.constexpr,
+                     vob_end_id: tl.constexpr,
+                     stride_ids_0, stride_ids_1,
+                     stride_w_v, stride_w_d,
+                     stride_out_0, stride_out_1, stride_out_2,
+                     seq_len, vocab_size, dim,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr):
+    pid_d = tl.program_id(0)
+    pid_b = tl.program_id(1)
+
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+
+    row_start = pid_b * seq_len
+    for j in range(0, seq_len, BLOCK_N):
+        offs_n = j + tl.arange(0, BLOCK_N)
+
+        mask_n = offs_n < seq_len
+        flat_idx = row_start + offs_n
+        pid = tl.load(input_ids_ptr + flat_idx, mask=mask_n, other=0)
+
+        valid_id = (pid >= vob_start_id) & (pid < vob_end_id) & mask_n
+        real_id = pid - vob_start_id
+        real_id = tl.where(valid_id, real_id, 0)
+
+        w_off = real_id[:, None] * stride_w_v + offs_d[None, :] * stride_w_d
+        embed = tl.load(weight_ptr + w_off,
+                        mask=valid_id[:, None] & (offs_d[None, :] < dim))
+
+        o_off = pid_b * stride_out_0 + offs_n[:, None] * stride_out_1 + offs_d[None, :] * stride_out_2
+        tl.store(out_ptr + o_off,
+                 embed,
+                 mask=valid_id[:, None] & (offs_d[None, :] < dim))
+
+
+def embedding(input_ids: torch.Tensor,
+              weight: torch.Tensor,
+              vob_start_id: int,
+              vob_end_id: int,
+              out: torch.Tensor) -> torch.Tensor:
+    if input_ids.ndim == 1:
+        input_ids = input_ids.unsqueeze(0)
+    batch, seq_len = input_ids.shape
+    vocab_size, dim = weight.shape
+    assert out.shape == (batch, seq_len, dim) or (input_ids.ndim == 1 and out.shape == (1, seq_len, dim))
+    assert weight.dtype == out.dtype
+
+    BLOCK_DMODEL = triton.next_power_of_2(dim)
+    BLOCK_N = 128
+    grid = (triton.cdiv(dim, BLOCK_DMODEL), batch)
+
+    embedding_kernel[grid](
+        input_ids, weight, out,
+        vob_start_id, vob_end_id,
+        input_ids.stride(0), input_ids.stride(1),
+        weight.stride(0), weight.stride(1),
+        out.stride(0), out.stride(1), out.stride(2),
+        seq_len, vocab_size, dim,
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py.stdout
new file mode 100644
index 0000000..d1da6b3
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_830218.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_830218 due to 
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py
new file mode 100644
index 0000000..bc4055c
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py
@@ -0,0 +1,250 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# ---------------------------------------------------------------------------
+# Triton kernel
+# ---------------------------------------------------------------------------
+@triton.jit
+def embedding_kernel(
+    ids,           # pointer to 1-D flattened token-ids tensor  shape [B*S] (int64)
+    weight,        # pointer to embedding weight matrix         shape [V, D] (float16/32)
+    out,           # pointer to output tensor                   shape [B, S, D]
+    B,             # int: batch size
+    S,             # int: sequence length
+    V,             # int: vocab size
+    D,             # int: embedding dim
+    stride_w_0,    # weight stride 0 = D
+    stride_out_0,  # stride for out dim 0 = S*D
+    stride_out_1,  # stride for out dim 1 = D
+    stride_out_2,  # stride for out dim 2 = 1
+    vob_start_id,  # unused
+    vob_end_id,    # unused
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid = tl.program_id(0)  # 1-D grid: one program per batch element
+    b_offset = pid * S  # base offset for this sequence in flat ids
+    # Each program handles its sequence: S tokens
+    for seq_off in range(0, S, BLOCK_N):
+        idx_n = seq_off + tl.arange(0, BLOCK_N)
+        mask_n = idx_n < S
+        # indices into 1-D ids tensor
+        ids_idx = b_offset + idx_n
+        token_ids = tl.load(ids + ids_idx, mask=mask_n, other=0)
+
+        # Clamp token ids into [0, V-1]
+        token_ids = tl.maximum(0, token_ids)
+        token_ids = tl.minimum(V-1, token_ids)
+
+        # Group BLOCK_N tokens into BLOCK_NN chunks
+        for grp_off in range(0, BLOCK_N, BLOCK_NN):
+            gn = grp_off + tl.arange(0, BLOCK_NN)
+            mask_gn = (gn < BLOCK_N) & mask_n
+            tid = token_ids[grp_off: grp_off + BLOCK_NN]
+
+            out_base = pid * stride_out_0 + (seq_off + grp_off) * stride_out_1
+            # Iterate over D in blocks
+            for d_off in range(0, D, BLOCK_DMODEL):
+                offs_d = d_off + tl.arange(0, BLOCK_DMODEL)
+                mask_d = offs_d < D
+                mask = mask_gn[:, None] & mask_d[None, :]
+
+                # Weight load: weight[tid, offs_d]
+                w_ptr = weight + tid[:, None] * stride_w_0 + offs_d[None, :]
+                emb_vec = tl.load(w_ptr, mask=mask, other=0.0)
+
+                # Output store: out[pid, seq_off+grp_off:grp_off+BLOCK_NN, offs_d]
+                o_ptr = out + out_base + gn[:, None] * stride_out_1 + d_off + offs_d[None, :]
+                tl.store(o_ptr, emb_vec, mask=mask)
+
+# ---------------------------------------------------------------------------
+# Wrapper
+# ---------------------------------------------------------------------------
+def embedding(
+    ids: torch.Tensor,    # [B, S] or [B*S] int64
+    weight: torch.Tensor, # [V, D]
+    vob_start_id: int = 0,
+    vob_end_id: int = None,
+    out: torch.Tensor = None,
+) -> torch.Tensor:        # Returns [B, S, D]
+
+    device = weight.device
+    dtype = weight.dtype
+    V, D = weight.shape
+
+    if ids.dim() == 1:
+        # Handle flattened case: expect B*S tokens
+        flat_ids = ids
+    else:  # dim == 2
+        B, S = ids.shape
+        flat_ids = ids.view(-1)  # [B*S]
+
+    if vob_end_id is None:
+        vob_end_id = V
+
+    if ids.dim() == 1:
+        # Infer B and S from flattened tensor
+        # Assume first argument already passed as full 1-D sequence (B*S)
+        # Use vob_start_id / vob_end_id if given, but not used in kernel
+        # Need outer computation to provide true B and S
+        raise ValueError(
+            "With 1-D ids you must compute/reshape outside to [B,S] or directly provide 2-D [B, S]"
+        )
+    else:
+        B, S = ids.shape
+        flat_ids = ids.view(-1)
+
+    if out is None:
+        out = torch.empty((B, S, D), dtype=dtype, device=device)
+
+    BLOCK_N = 128
+    BLOCK_NN = 64
+    BLOCK_DMODEL = triton.next_power_of_2(D)
+
+    grid = (B,)
+
+    embedding_kernel[grid](
+        flat_ids,
+        weight,
+        out,
+        B,
+        S,
+        V,
+        D,
+        weight.stride(0),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        vob_start_id,
+        vob_end_id,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py.stdout
new file mode 100644
index 0000000..99a4915
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_837397.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_837397 due to With 1-D ids you must compute/reshape outside to [B,S] or directly provide 2-D [B, S]
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py
new file mode 100644
index 0000000..362a88e
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py
@@ -0,0 +1,220 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    token_ids,
+    weight,
+    out,
+    stride_b,
+    stride_l,
+    stride_v,
+    stride_d,
+    stride_ob,
+    stride_ol,
+    vob_start_id,
+    vob_end_id,
+    BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr
+):
+    pid_batch = tl.program_id(0)
+    pid_dim = tl.program_id(1)
+
+    cols_d = pid_dim * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    mask_d = cols_d < stride_d
+
+    for start_l in tl.range(0, stride_l, BLOCK_NN):
+        cols_l = start_l + tl.arange(0, BLOCK_NN)
+        mask_l_outer = cols_l < stride_l
+
+        flat_offset = pid_batch * stride_b + cols_l
+        ids = tl.load(token_ids + flat_offset, mask=mask_l_outer)
+
+        valid_mask = (ids >= vob_start_id) & (ids < vob_end_id)
+
+        safe_ids = tl.where(valid_mask, ids, vob_start_id)
+
+        warp_offsets_l = cols_l[:, None]
+        warp_offsets_d = cols_d[None, :]
+
+        emb_offsets = safe_ids[:, None] * stride_v + warp_offsets_d
+        vals = tl.load(weight + emb_offsets, mask=(mask_l_outer[:, None] & mask_d[None, :]))
+
+        out_offsets = pid_batch * stride_ob + warp_offsets_l * stride_ol + warp_offsets_d
+        tl.store(out + out_offsets, vals, mask=(mask_l_outer[:, None] & mask_d[None, :]))
+
+
+def embedding(
+    token_ids: torch.Tensor,
+    weight: torch.Tensor,
+    vob_start_id: int,
+    vob_end_id: int,
+    out: torch.Tensor
+) -> None:
+    assert token_ids.device == weight.device == out.device
+    assert token_ids.dtype == torch.int64 or token_ids.dtype == torch.int32
+    assert weight.ndim == 2
+    V, D = weight.shape
+    B = token_ids.numel() // token_ids.size(-1) if token_ids.ndim > 1 else 1
+    L = token_ids.size(-1)
+
+    if token_ids.ndim == 1:
+        assert out.numel() == L * D and out.size(-1) == D
+    else:
+        assert out.numel() == B * L * D and out.size(-1) == D
+
+    BLOCK_DMODEL = triton.next_power_of_2(D)
+    BLOCK_N = 32
+    BLOCK_NN = 256
+
+    if token_ids.ndim == 1:
+        grid = (1, triton.cdiv(D, BLOCK_DMODEL))
+        token_ids = token_ids.contiguous()
+        out = out.view(L, D).contiguous()
+    else:
+        grid = (B, triton.cdiv(D, BLOCK_DMODEL))
+        token_ids = token_ids.view(B, L).contiguous()
+        out = out.view(B, L, D).contiguous()
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out,
+        token_ids.stride(0) if token_ids.ndim > 1 else 0,
+        token_ids.stride(-1),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0) if out.ndim > 2 else 0,
+        out.stride(-2) if out.ndim > 2 else out.stride(0),
+        vob_start_id,
+        vob_end_id,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py.stdout
new file mode 100644
index 0000000..178b749
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_92676.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: embedding_triton_kernel.py_gen_triton_code_92676.py
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py
new file mode 100644
index 0000000..6275e29
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py
@@ -0,0 +1,190 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(weight_ptr, ids_ptr, out_ptr,
+                     stride_w,   # stride of weight in dim-1
+                     stride_out, # stride of out    in dim-0
+                     num_tokens,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_NN: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr
+                     ):
+    pid = tl.program_id(0)  # token block
+    pid_d = tl.program_id(1)  # d-model block
+    start_token = pid * BLOCK_NN
+    ids = tl.load(ids_ptr + start_token + tl.arange(0, BLOCK_NN))  # [BLOCK_NN]
+
+    offsets_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+    mask_tokens = start_token + tl.arange(0, BLOCK_NN) < num_tokens
+
+    for i in range(BLOCK_NN):
+        cond = mask_tokens[i]
+        if not cond:
+            break
+        token_id = ids[i]
+        weight_offsets = token_id * stride_w + offsets_d
+        weight_vec = tl.load(weight_ptr + weight_offsets, mask=offsets_d < stride_w)
+        output_offsets = (start_token + i) * stride_out + offsets_d
+        tl.store(out_ptr + output_offsets, weight_vec, mask=offsets_d < stride_out)
+
+def embedding(weight: torch.Tensor, ids: torch.Tensor, out: torch.Tensor,
+              BLOCK_N: int = 1, BLOCK_NN: int = 32, BLOCK_DMODEL: int = None):
+    """
+    Wrapper: weight shape [vocab, d_model]
+             ids   shape [num_tokens]
+             out   shape [num_tokens, d_model]
+    """
+    assert weight.ndim == 2
+    assert ids.ndim == 1
+    assert out.ndim == 2
+    assert out.shape == (ids.shape[0], weight.shape[1])
+    vocab, d_model = weight.shape
+    num_tokens = ids.numel()
+
+    if BLOCK_DMODEL is None:
+        BLOCK_DMODEL = triton.next_power_of_2(d_model)
+
+    grid = lambda META: (triton.cdiv(num_tokens, meta["BLOCK_NN"]),
+                         triton.cdiv(d_model, meta["BLOCK_DMODEL"]))
+    meta={
+        "BLOCK_N": BLOCK_N,
+        "BLOCK_NN": BLOCK_NN,
+        "BLOCK_DMODEL": BLOCK_DMODEL
+    }
+    embedding_kernel[triton.cdiv(num_tokens, BLOCK_NN),
+                     triton.cdiv(d_model, BLOCK_DMODEL)](
+        weight, ids, out,
+        stride_w=weight.stride(0),
+        stride_out=out.stride(0),
+        num_tokens=num_tokens,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py.stdout
new file mode 100644
index 0000000..4609420
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_940390.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_940390 due to 
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py
new file mode 100644
index 0000000..1efba06
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py
@@ -0,0 +1,196 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(input_ids_ptr, weight_ptr, out_ptr,
+                     vob_start_id: int, vob_end_id: int,
+                     stride_ids_0, stride_ids_1,
+                     stride_w_v, stride_w_d,
+                     stride_out_0, stride_out_1, stride_out_2,
+                     seq_len: int, vocab_size: int, dim: int,
+                     BLOCK_N: tl.constexpr,
+                     BLOCK_DMODEL: tl.constexpr,
+                     BLOCK_NN: tl.constexpr):
+    pid_d = tl.program_id(0)
+    pid_b = tl.program_id(1)
+
+    offs_d = pid_d * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+
+    block_offset_id = pid_b * seq_len
+    block_offset_out = pid_b * seq_len * stride_out_1
+
+    for j in range(0, seq_len, BLOCK_NN):
+        offs_n = j + tl.arange(0, BLOCK_N)
+        mask_n = offs_n < seq_len
+
+        token_ids = tl.load(input_ids_ptr + block_offset_id + offs_n, mask=mask_n)  # BLOCK_N
+        valid_mask = (token_ids >= vob_start_id) & (token_ids < vob_end_id) & mask_n
+        token_ids_offs = token_ids - vob_start_id
+
+        token_ids_offs = tl.where(valid_mask, token_ids_offs, 0)
+
+        w_ptrs = weight_ptr + token_ids_offs[:, None] * stride_w_v + offs_d[None, :] * stride_w_d
+        emb_vec = tl.load(w_ptrs, mask=valid_mask[:, None] & (offs_d[None, :] < dim))
+
+        out_ptrs = out_ptr + block_offset_out + offs_n[:, None] * stride_out_1 + offs_d[None, :] * stride_out_2
+        tl.store(out_ptrs, emb_vec, mask=valid_mask[:, None] & (offs_d[None, :] < dim))
+
+
+def embedding(input_ids: torch.Tensor,
+              weight: torch.Tensor,
+              vob_start_id: int,
+              vob_end_id: int,
+              out: torch.Tensor
+              ) -> torch.Tensor:
+    batch, seq_len = input_ids.shape
+    vocab_size, dim = weight.shape
+    assert out.shape == (batch, seq_len, dim)
+    assert weight.dtype == out.dtype
+
+    stride_ids_0, stride_ids_1 = input_ids.stride()
+    stride_w_v, stride_w_d = weight.stride()
+    stride_out_0, stride_out_1, stride_out_2 = out.stride()
+
+    BLOCK_DMODEL = triton.next_power_of_2(dim)
+
+    BLOCK_N = 64
+    BLOCK_NN = 128
+    grid = lambda META: (triton.cdiv(dim, META['BLOCK_DMODEL']), batch)
+
+    embedding_kernel[grid](
+        input_ids, weight, out,
+        int(vob_start_id), int(vob_end_id),
+        stride_ids_0, stride_ids_1,
+        stride_w_v, stride_w_d,
+        stride_out_0, stride_out_1, stride_out_2,
+        int(seq_len), int(vocab_size), int(dim),
+        BLOCK_N=BLOCK_N,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        BLOCK_NN=BLOCK_NN
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py.stdout
new file mode 100644
index 0000000..e9e9575
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_965031.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_965031 due to not enough values to unpack (expected 2, got 1)
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py
new file mode 100644
index 0000000..bea0a65
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py
@@ -0,0 +1,174 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def embedding_kernel(
+    out, ids, weight, stride_os, stride_om,
+    stride_ws, stride_wm,
+    N, BLOCK_N: tl.constexpr,
+    BLOCK_NN: tl.constexpr, BLOCK_DMODEL: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    start_id = pid * BLOCK_NN
+    cols_d = tl.arange(0, BLOCK_DMODEL)
+
+    for i in range(0, BLOCK_NN, BLOCK_N):
+        rows_seq = start_id + i + tl.arange(0, BLOCK_N)
+        mask = rows_seq < N
+        ids_off = rows_seq
+        token_ids = tl.load(ids + ids_off, mask=mask, other=0)
+
+        w_off = (token_ids[:, None] * stride_ws + cols_d[None, :] * stride_wm)
+        x = tl.load(weight + w_off, mask=mask[:, None], other=0.0)
+
+        o_off = rows_seq[:, None] * stride_os + cols_d[None, :] * stride_om
+        tl.store(out + o_off, x, mask=mask[:, None])
+
+
+def embedding(ids: torch.Tensor, weight: torch.Tensor) -> torch.Tensor:
+    N = ids.numel()
+    DMODEL = weight.size(-1)
+    out = torch.empty((N, DMODEL), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_N = 16
+    BLOCK_NN = 32
+    BLOCK_DMODEL = triton.next_power_of_2(DMODEL)
+
+    grid = lambda meta: (triton.cdiv(N, meta['BLOCK_NN']),)
+
+    embedding_kernel[grid](
+        out, ids, weight,
+        out.stride(0), out.stride(1),
+        weight.stride(0), weight.stride(1),
+        N,
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py.stdout
new file mode 100644
index 0000000..715b812
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_984659.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_984659 due to embedding() takes 2 positional arguments but 5 were given
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py
new file mode 100644
index 0000000..111765e
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py
@@ -0,0 +1,227 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def embedding_kernel(
+    token_ids_ptr,        # int32*
+    weight_ptr,           # fp16/fp32*
+    out_ptr,              # fp16/fp32*
+    seq_len,              # int32
+    num_tokens,           # int32
+    d_model,              # int32
+    stride_id,            # int32
+    stride_w0,            # int32
+    stride_w1,            # int32
+    stride_out0,          # int32
+    stride_out1,          # int32
+    BLOCK_N:    tl.constexpr,
+    BLOCK_NN:   tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    pid_seq = tl.program_id(0)  # sequence index
+    pid_col = tl.program_id(1)  # d_model block index
+
+    if pid_seq >= seq_len:
+        return
+
+    # token dimension indices in this block
+    cols = pid_col * BLOCK_DMODEL + tl.arange(0, BLOCK_DMODEL)
+
+    # offset into each token’s embedding slice
+    d_mask = cols < d_model
+    out_offset = pid_seq * stride_out0 + cols * stride_out1
+    weight_offset_col = cols * stride_w1
+
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    for start_n in range(0, num_tokens, BLOCK_N):
+        # iterate over tokens in blocks of BLOCK_N
+        block_start = start_n
+        block_end   = start_n + BLOCK_N
+        n_block = tl.arange(block_start, block_end)
+        n_mask = n_block < num_tokens
+
+        # flat token index = seq * max_tokens_per_seq + token_in_seq
+        flat_idx = pid_seq * stride_id + n_block
+        token_ids = tl.load(token_ids_ptr + flat_idx, mask=n_mask, other=0)
+
+        # gather weight rows: token_ids[BLOCK_N] × lookup[BLOCK_DMODEL]
+        for inner in range(0, BLOCK_N, BLOCK_NN):
+            inner_start = inner
+            inner_end   = inner + BLOCK_NN
+            inner_range = inner_start + tl.arange(0, BLOCK_NN)
+            mask_inner = (n_block < num_tokens) & (inner_range < BLOCK_N)
+            inner_seq_ids = token_ids[inner_range - inner_start] if BLOCK_N > 1 else token_ids
+
+            # load weight rows = inner_seq_ids
+            w_offs = inner_seq_ids * stride_w0 + weight_offset_col
+            w_vals = tl.load(weight_ptr + w_offs, mask=d_mask & mask_inner, other=0.0)
+            acc += w_vals
+
+    # store gathered embedding for this sequence
+    acc = acc.to(out_ptr.dtype.element_ty)
+    tl.store(out_ptr + out_offset, acc, mask=d_mask)
+
+
+def embedding(
+    token_ids: torch.Tensor,  # int32, shape (seq_len, num_tokens)
+    weight:    torch.Tensor,  # fp16/fp32, shape (vocab_size, d_model)
+    out:       torch.Tensor = None,
+) -> torch.Tensor:
+    seq_len, num_tokens = token_ids.shape
+    _, d_model = weight.shape
+    assert token_ids.dtype == torch.int32
+    assert weight.dtype in [torch.float16, torch.float32]
+    assert weight.is_contiguous()
+
+    if out is None:
+        out = torch.empty((seq_len, d_model), dtype=weight.dtype, device=weight.device)
+
+    BLOCK_DMODEL = triton.next_power_of_2(d_model)
+    BLOCK_N  = 16
+    BLOCK_NN = 8
+
+    grid = (seq_len, triton.cdiv(d_model, BLOCK_DMODEL))
+
+    embedding_kernel[grid](
+        token_ids,
+        weight,
+        out,
+        seq_len,
+        num_tokens,
+        d_model,
+        token_ids.stride(0),
+        weight.stride(0),
+        weight.stride(1),
+        out.stride(0),
+        out.stride(1),
+        BLOCK_N=BLOCK_N,
+        BLOCK_NN=BLOCK_NN,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_embedding():
+
+    # 参数定义
+
+    vocab_size = 1000         # 词汇表大小
+
+    embedding_dim = 512       # 嵌入维度
+
+    sequence_length = 128     # 输入序列长度
+
+    vob_start_id = 10         # 词汇表起始 ID
+
+    vob_end_id = 1000         # 词汇表结束 ID
+
+
+
+    # 创建测试输入张量
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+
+
+    # 调用嵌入函数
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+
+
+    # 保存结果
+
+    results = {}
+
+    results['test_case_1'] = out.clone()
+
+
+
+    # 测试不同的输入
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_2'] = out.clone()
+
+
+
+    # 测试不同的词汇表范围
+
+    vob_start_id = 0
+
+    vob_end_id = 500
+
+    input_ids = torch.randint(
+
+        vob_start_id, vob_end_id, (sequence_length,), dtype=torch.int32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_3'] = out.clone()
+
+
+
+    # 测试不同的嵌入维度
+
+    embedding_dim = 256
+
+    weight = torch.randn(
+
+        vocab_size, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    out = torch.zeros(
+
+        sequence_length, embedding_dim, dtype=torch.float32, device='cuda'
+
+    )
+
+    embedding(input_ids, weight, vob_start_id, vob_end_id, out)
+
+    results['test_case_4'] = out.clone()
+
+
+
+    return results
+
+
+
+result_gold = test_embedding()
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py.stderr b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py.stdout b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py.stdout
new file mode 100644
index 0000000..68f2751
--- /dev/null
+++ b/src/temp/gen/embedding_triton_kernel.py_gen_triton_code_992208.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module embedding_triton_kernel.py_gen_triton_code_992208 due to embedding() takes from 2 to 3 positional arguments but 5 were given
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py
new file mode 100644
index 0000000..6685521
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py
@@ -0,0 +1,201 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_o_eb,
+    stride_mid_o_eh,
+    stride_mid_o_es,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    cur_batch_seq_len = tl.load(B_Seqlen + cur_batch).to(tl.int32)
+
+    block_n_size = tl.maximum(0, cur_batch_seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    ptr_start = (
+        cur_batch * stride_mid_ob
+        + cur_head * stride_mid_oh
+    )
+    ptr_start_lse = (
+        cur_batch * stride_mid_o_eb
+        + cur_head * stride_mid_o_eh
+    )
+
+    for block_seq_n in range(block_n_size):
+        tv = tl.load(
+            Mid_O + ptr_start + block_seq_n * stride_mid_os + offs_d * stride_mid_od,
+            mask=offs_d < BLOCK_DMODEL,
+            other=0.0,
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + ptr_start_lse + block_seq_n * stride_mid_o_es)
+
+        new_max_logic = tl.maximum(tlogic, max_logic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        acc *= old_scale
+        exp_logic = tl.exp(tlogic - new_max_logic)
+        acc += exp_logic * tv.to(tl.float32)
+        sum_exp = sum_exp * old_scale + exp_logic
+        max_logic = new_max_logic
+
+    out_ptr = Out + cur_batch * stride_ob + cur_head * stride_oh + offs_d
+    tl.store(out_ptr, (acc / sum_exp).to(Out.dtype.element_ty))
+
+def flash_decode_stage2(B_Seqlen, Mid_O, Mid_O_LogExpSum, Out, BLOCK_SEQ):
+    assert Mid_O.shape[-1] in {16, 32, 64, 128, 256, 512}
+    batch, head_num, D = Mid_O.shape[0], Mid_O.shape[1], Mid_O.shape[-1]
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=D,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py.stdout
new file mode 100644
index 0000000..ef48cdd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_126106.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_126106 due to 
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py
new file mode 100644
index 0000000..4dbfa96
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py
@@ -0,0 +1,211 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+    
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    
+    seqlen = tl.load(B_Seqlen + cur_batch)
+    block_n_size = tl.maximum(0, (seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ)
+    
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    
+    for block_id in range(0, block_n_size):
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+        
+        offs_mid_lse = (
+            cur_batch * stride_mid_les_b
+            + cur_head * stride_mid_les_h
+            + block_id * stride_mid_les_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_mid_lse).to(tl.float32)
+        
+        new_max = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+        
+        exp_val = tl.exp(tlogic - new_max)
+        acc += tv * exp_val
+        sum_exp += exp_val
+        max_logic = new_max
+    
+    acc = acc / sum_exp
+    
+    offs_out = cur_batch * stride_ob + cur_head * stride_oh + offs_d * stride_od
+    tl.store(Out + offs_out, acc.to(Out.type.element_ty))
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+) -> torch.Tensor:
+    batch, head_num = Mid_O.shape[0], Mid_O.shape[1]
+    BLOCK_DMODEL = Mid_O.shape[-1]
+    BLOCK_SEQ = Mid_O.shape[2]
+    
+    grid = (batch, head_num)
+    
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py.stdout
new file mode 100644
index 0000000..1c295ed
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_14965.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_14965 due to flash_decode_stage2() takes 4 positional arguments but 5 were given
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py
new file mode 100644
index 0000000..9756e66
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py
@@ -0,0 +1,210 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+    
+    cur_seqlen = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (cur_seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+    
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    
+    for block_id in range(0, block_n_size):
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+        
+        offs_mid_lse = (
+            cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_mid_lse)
+        
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+        
+        exp_logic = tl.exp(tlogic - new_max_logic)
+        acc += exp_logic * tv
+        sum_exp += exp_logic
+        
+        max_logic = new_max_logic
+    
+    offs_out = (
+        cur_batch * stride_out_b
+        + cur_head * stride_out_h
+        + offs_d
+    )
+    final = acc / sum_exp
+    tl.store(Out + offs_out, final.to(Out.type.element_ty))
+
+def flash_decode_stage2(
+    b_seq_len: torch.Tensor,
+    mid_out: torch.Tensor,
+    mid_out_logexpsum: torch.Tensor,
+    output: torch.Tensor,
+    BLOCK_SEQ: int,
+) -> None:
+    batch, head_num = b_seq_len.size(0), mid_out.size(1)
+    grid = (batch, head_num)
+    
+    _fwd_kernel_flash_decode_stage2[grid](
+        b_seq_len,
+        mid_out,
+        mid_out_logexpsum,
+        output,
+        mid_out.stride(0),
+        mid_out.stride(1),
+        mid_out.stride(2),
+        mid_out.stride(3),
+        mid_out_logexpsum.stride(0),
+        mid_out_logexpsum.stride(1),
+        mid_out_logexpsum.stride(2),
+        output.stride(0),
+        output.stride(1),
+        output.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=output.size(2),
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py.stdout
new file mode 100644
index 0000000..764d81f
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_198114.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_198114 due to Dimension out of range (expected to be in range of [-3, 2], but got 3)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py
new file mode 100644
index 0000000..0dda36d
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py
@@ -0,0 +1,203 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head  = tl.program_id(1)
+    offs_d    = tl.arange(0, BLOCK_DMODEL)
+
+    seq_len   = tl.load(B_Seqlen + cur_batch)
+    n_blocks  = tl.maximum((seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ, 1)
+
+    acc       = tl.zeros([BLOCK_DMODEL], dtype=Mid_O.dtype.element_ty)
+    max_logic = -float('inf')
+    sum_exp   = 0.0
+
+    for i in range(n_blocks):
+        v  = tl.load(
+            Mid_O + cur_batch * stride_mid_ob
+                  + cur_head  * stride_mid_oh
+                  + i         * stride_mid_os
+                  + offs_d    * stride_mid_od
+        )
+        logsum = tl.load(
+            Mid_O_LogExpSum + cur_batch * stride_mid_les_b
+                            + cur_head  * stride_mid_les_h
+                            + i         * stride_mid_les_s
+        )
+        new_max = tl.maximum(logsum, max_logic)
+        scale   = tl.exp(max_logic - new_max)
+        acc     = acc * scale + v * tl.exp(logsum - new_max)
+        sum_exp = sum_exp * scale + tl.exp(logsum - new_max)
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    tl.store(
+        Out + cur_batch * stride_out_b
+            + cur_head  * stride_out_h
+            + offs_d    * stride_out_d,
+        acc
+    )
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+    BLOCK_DMODEL: int = 128,
+):
+    B, H = Out.shape[0], Out.shape[1]
+    grid = (B, H)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3) if Mid_O.ndim == 4 else 1,
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py.stdout
new file mode 100644
index 0000000..013ca5b
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_23614.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_23614 due to Dimension out of range (expected to be in range of [-1, 0], but got 1)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py
new file mode 100644
index 0000000..cd3682f
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py
@@ -0,0 +1,212 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,  # [batch, head, seq_block_num, head_dim]
+    Mid_O_LogExpSum,  # [batch, head, seq_block_num]
+    Out,                # [batch, head, head_dim]
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+    cur_seqlen = tl.load(B_Seqlen + cur_batch)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    block_n_size = (cur_seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid).to(tl.float32)
+
+        offs_lse = (
+            cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_lse)
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+
+        exp_logic = tl.exp(tlogic - new_max_logic)
+        acc += exp_logic * tv
+        sum_exp += exp_logic
+        max_logic = new_max_logic
+
+    offs_out = (
+        cur_batch * stride_out_b
+        + cur_head * stride_out_h
+        + offs_d * stride_out_d
+    )
+    tl.store(Out + offs_out, acc / sum_exp)
+    return
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+) -> None:
+    batch, head_num = Mid_O.size(0), Mid_O.size(1)
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=Out.size(2),
+        num_warps=4,
+        num_stages=2,
+    )
+    return
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py.stdout
new file mode 100644
index 0000000..5f2cf36
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_269764.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_269764 due to Dimension out of range (expected to be in range of [-3, 2], but got 3)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py
new file mode 100644
index 0000000..ba9ae8a
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py
@@ -0,0 +1,198 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    cur_seq_len = tl.load(B_Seqlen + cur_batch)
+    block_n_size = tl.cdiv(cur_seq_len, BLOCK_SEQ)
+
+    offsets_d = tl.arange(0, BLOCK_DMODEL)
+
+    sum_exp = 0.0
+    max_logic = float('-inf')
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid_o = cur_batch * stride_mid_ob + cur_head * stride_mid_oh + block_id * stride_mid_os + offsets_d * stride_mid_od
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+
+        offs_lse = cur_batch * stride_mid_lse_b + cur_head * stride_mid_lse_h + block_id * stride_mid_lse_s
+        tlogic = tl.load(Mid_O_LogExpSum + offs_lse).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max)
+        acc = acc * scale
+        sum_exp = sum_exp * scale
+
+        exp_logic = tl.exp(tlogic - new_max)
+        acc += tv * exp_logic
+        sum_exp += exp_logic
+        max_logic = new_max
+
+    offs_out = cur_batch * stride_out_b + cur_head * stride_out_h + offsets_d * stride_out_d
+    tl.store(Out + offs_out, (acc / sum_exp).to(Out.dtype.element_ty))
+
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int
+):
+    batch, num_heads = Out.shape[0], Out.shape[1]
+    BLOCK_DMODEL = Out.shape[-1]
+    grid = (batch, num_heads)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_335674.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py
new file mode 100644
index 0000000..36aec71
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py
@@ -0,0 +1,225 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_b_seqlen,
+    stride_mid_os,
+    stride_mid_oh,
+    stride_mid_ob,
+    stride_mid_od,
+    stride_mid_ls,
+    stride_mid_lh,
+    stride_mid_lb,
+    stride_out_s,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch * stride_b_seqlen)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_block = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        tv = tl.load(
+            Mid_O + cur_batch * stride_mid_os
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_ob
+            + offs_block * stride_mid_od,
+            mask=offs_block < BLOCK_DMODEL,
+            other=0.0
+        ).to(tl.float32)
+
+        tlogic = tl.load(
+            Mid_O_LogExpSum + cur_batch * stride_mid_ls
+            + cur_head * stride_mid_lh
+            + block_id * stride_mid_lb
+        ).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max)
+        sum_exp *= scale
+        acc *= scale
+
+        tlogic_exp = tl.exp(tlogic - new_max)
+        acc += tv * tlogic_exp
+        sum_exp += tlogic_exp
+
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    tl.store(
+        Out + cur_batch * stride_out_s
+        + cur_head * stride_out_h
+        + offs_block * stride_out_d,
+        acc.to(Out.type.element_ty),
+        mask=offs_block < BLOCK_DMODEL
+    )
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+):
+    batch = B_Seqlen.shape[0]
+    head_num = Mid_O.shape[1]
+    BLOCK_DMODEL = Mid_O.shape[-1]
+
+    assert BLOCK_SEQ > 0
+    assert Out.shape == (batch, head_num, BLOCK_DMODEL)
+    assert Mid_O.shape[:-1] == (batch, head_num, (B_Seqlen.max() + BLOCK_SEQ - 1) // BLOCK_SEQ)
+    assert Mid_O_LogExpSum.shape == Mid_O.shape[:-1]
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0) if B_Seqlen.dim() == 1 else 0,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py.stdout
new file mode 100644
index 0000000..8c8674a
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_349606.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_349606 due to 
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py
new file mode 100644
index 0000000..19e4413
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py
@@ -0,0 +1,208 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,               # [head_num, seq_blocks, BLOCK_DMODEL]
+    Mid_O_LogExpSum,     # [head_num, seq_blocks]
+    Out,                 # [head_num, BLOCK_DMODEL]
+    stride_mid_oh,       # stride(head_num)
+    stride_mid_ob,       # stride(seq_blocks)
+    stride_mid_od,       # stride(BLOCK_DMODEL)
+    stride_mid_o_lseh,   # stride(head)
+    stride_mid_o_lseb,   # stride(seq_blocks)
+    stride_oh,           # stride(head_num)
+    stride_od,           # stride(BLOCK_DMODEL)
+    B_START_ID,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch)
+
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        ptr_tv = (
+            Mid_O
+            + (cur_head * stride_mid_oh)
+            + (block_id * stride_mid_ob)
+            + offs_d * stride_mid_od
+        )
+
+        tv = tl.load(ptr_tv)
+        ptr_tlogic = (
+            Mid_O_LogExpSum
+            + cur_head * stride_mid_o_lseh
+            + block_id * stride_mid_o_lseb
+        )
+        tlogic = tl.load(ptr_tlogic)
+
+        max_prev = max_logic
+        max_logic = tl.maximum(max_prev, tlogic)
+        sum_exp = sum_exp * tl.exp(max_prev - max_logic) + tl.exp(tlogic - max_logic)
+        acc = acc * tl.exp(max_prev - max_logic) + tv * tl.exp(tlogic - max_logic)
+
+    result = acc / (sum_exp + 1e-6)
+
+    ptr_out = Out + cur_head * stride_oh + offs_d * stride_od
+    tl.store(ptr_out, result.cast(ptr_out.dtype.element_ty))
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    B_START_ID: int = 0,
+    BLOCK_SEQ: int = 64,
+):
+    head_num, seq_blocks, BLOCK_DMODEL = Mid_O.shape
+    batch_size = B_Seqlen.shape[0]
+
+    triton_grid = (batch_size, head_num)
+
+    _fwd_kernel_flash_decode_stage2[
+        triton_grid
+    ](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Out.stride(0),
+        Out.stride(1),
+        B_START_ID,
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py.stdout
new file mode 100644
index 0000000..4f9e1ba
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_369704.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_369704 due to Dimension out of range (expected to be in range of [-1, 0], but got 1)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py
new file mode 100644
index 0000000..0dda36d
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py
@@ -0,0 +1,203 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head  = tl.program_id(1)
+    offs_d    = tl.arange(0, BLOCK_DMODEL)
+
+    seq_len   = tl.load(B_Seqlen + cur_batch)
+    n_blocks  = tl.maximum((seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ, 1)
+
+    acc       = tl.zeros([BLOCK_DMODEL], dtype=Mid_O.dtype.element_ty)
+    max_logic = -float('inf')
+    sum_exp   = 0.0
+
+    for i in range(n_blocks):
+        v  = tl.load(
+            Mid_O + cur_batch * stride_mid_ob
+                  + cur_head  * stride_mid_oh
+                  + i         * stride_mid_os
+                  + offs_d    * stride_mid_od
+        )
+        logsum = tl.load(
+            Mid_O_LogExpSum + cur_batch * stride_mid_les_b
+                            + cur_head  * stride_mid_les_h
+                            + i         * stride_mid_les_s
+        )
+        new_max = tl.maximum(logsum, max_logic)
+        scale   = tl.exp(max_logic - new_max)
+        acc     = acc * scale + v * tl.exp(logsum - new_max)
+        sum_exp = sum_exp * scale + tl.exp(logsum - new_max)
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    tl.store(
+        Out + cur_batch * stride_out_b
+            + cur_head  * stride_out_h
+            + offs_d    * stride_out_d,
+        acc
+    )
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+    BLOCK_DMODEL: int = 128,
+):
+    B, H = Out.shape[0], Out.shape[1]
+    grid = (B, H)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3) if Mid_O.ndim == 4 else 1,
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py.stdout
new file mode 100644
index 0000000..b7c1518
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_38100.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_38100 due to Dimension out of range (expected to be in range of [-1, 0], but got 1)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py
new file mode 100644
index 0000000..3316994
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py
@@ -0,0 +1,214 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_bseqlen,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    seqlen = tl.load(B_Seqlen + cur_batch * stride_bseqlen)
+    block_n_size = (seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+
+        offs_mid_lse = (
+            cur_batch * stride_mid_les_b
+            + cur_head * stride_mid_les_h
+            + block_id * stride_mid_les_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_mid_lse).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+
+        exp_val = tl.exp(tlogic - new_max)
+        acc += tv * exp_val
+        sum_exp += exp_val
+        max_logic = new_max
+
+    acc = acc / sum_exp
+
+    offs_out = cur_batch * stride_ob + cur_head * stride_oh + offs_d * stride_od
+    tl.store(Out + offs_out, acc.to(Out.type.element_ty))
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+) -> torch.Tensor:
+    batch = Mid_O.size(0)
+    head_num = Mid_O.size(1)
+    BLOCK_DMODEL = Mid_O.size(-1)
+    BLOCK_SEQ = Mid_O.size(2) if len(Mid_O.shape) == 4 else 1
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0),
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py.stdout
new file mode 100644
index 0000000..c016b85
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_405645.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_405645 due to flash_decode_stage2() takes 4 positional arguments but 5 were given
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py
new file mode 100644
index 0000000..d17ca28
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py
@@ -0,0 +1,200 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_bseqlen,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_olesb,
+    stride_mid_olesh,
+    stride_mid_oles,
+    stride_oub,
+    stride_ouh,
+    stride_oud,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_head = tl.program_id(1)
+    cur_batch = tl.program_id(0)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    seq_len = tl.load(B_Seqlen + cur_batch * stride_bseqlen)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    for block_n in range(block_n_size):
+        tv = tl.load(Mid_O + cur_batch * stride_mid_ob + cur_head * stride_mid_oh +
+                     block_n * stride_mid_os + offs_d * stride_mid_od)
+        tlogic = tl.load(Mid_O_LogExpSum + cur_batch * stride_mid_olesb +
+                         cur_head * stride_mid_olesh + block_n * stride_mid_oles)
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        new_scale = tl.exp(tlogic - new_max_logic)
+
+        acc = acc * old_scale + tv * new_scale
+        sum_exp = sum_exp * old_scale + new_scale
+        max_logic = new_max_logic
+
+    acc = acc / sum_exp
+    tl.store(Out + cur_batch * stride_oub + cur_head * stride_ouh + offs_d * stride_oud, acc)
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor
+):
+    batch = B_Seqlen.shape[0]
+    head_num = Mid_O.shape[1]
+    assert Mid_O_LogExpSum.shape[1] == head_num
+    BLOCK_SEQ = Mid_O.shape[2]
+    BLOCK_DMODEL = Mid_O.shape[3]
+
+    _fwd_kernel_flash_decode_stage2[(batch, head_num)](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0),
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py.stdout
new file mode 100644
index 0000000..f440707
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_42419.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_42419 due to flash_decode_stage2() takes 4 positional arguments but 5 were given
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py
new file mode 100644
index 0000000..162a08f
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py
@@ -0,0 +1,224 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_b_seqlen,
+    stride_mid_os,
+    stride_mid_oh,
+    stride_mid_ob,
+    stride_mid_od,
+    stride_mid_ls,
+    stride_mid_lh,
+    stride_mid_lb,
+    stride_out_s,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch * stride_b_seqlen)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_block = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        tv = tl.load(
+            Mid_O + cur_batch * stride_mid_os
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_ob
+            + offs_block * stride_mid_od
+        ).to(tl.float32)
+
+        tlogic = tl.load(
+            Mid_O_LogExpSum + cur_batch * stride_mid_ls
+            + cur_head * stride_mid_lh
+            + block_id * stride_mid_lb
+        ).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max)
+        sum_exp *= scale
+        acc *= scale
+
+        tlogic_exp = tl.exp(tlogic - new_max)
+        acc += tv * tlogic_exp
+        sum_exp += tlogic_exp
+
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    tl.store(
+        Out + cur_batch * stride_out_s
+        + cur_head * stride_out_h
+        + offs_block * stride_out_d,
+        acc.to(Out.type.element_ty)
+    )
+
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+):
+    batch = B_Seqlen.shape[0]
+    head_num = Mid_O.shape[1]
+    BLOCK_DMODEL = Mid_O.shape[-1]
+
+    assert BLOCK_SEQ > 0
+    assert Out.shape == (batch, head_num, BLOCK_DMODEL)
+    assert Mid_O.shape[:-1] == (batch, head_num, (B_Seqlen.max().item() + BLOCK_SEQ - 1) // BLOCK_SEQ)
+    assert Mid_O_LogExpSum.shape == Mid_O.shape[:-1]
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0) if B_Seqlen.dim() >= 1 else 0,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2
+    )
+
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py.stdout
new file mode 100644
index 0000000..5ac48aa
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_450387.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_450387 due to 
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py
new file mode 100644
index 0000000..6e48b97
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py
@@ -0,0 +1,212 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,           # [batch, head, seq_block_num, D]
+    Mid_O_LogExpSum, # [batch, head, seq_block_num]
+    Out,             # [batch, head, D]
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_lse_b,
+    stride_lse_h,
+    stride_lse_s,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head  = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch).to(tl.int32)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    sum_exp = 0.0
+    max_logic = -float("inf")
+
+    for block_id in range(0, block_n_size):
+        v_ptrs = (
+            Mid_O
+            + cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        log_ptr = (
+            Mid_O_LogExpSum
+            + cur_batch * stride_lse_b
+            + cur_head * stride_lse_h
+            + block_id * stride_lse_s
+        )
+        v = tl.load(v_ptrs)
+        lse = tl.load(log_ptr)
+
+        new_max = tl.maximum(max_logic, lse)
+        scale = tl.exp(max_logic - new_max)
+        exp_lse = tl.exp(lse - new_max)
+
+        acc = acc * scale + v.to(tl.float32) * exp_lse
+        sum_exp = sum_exp * scale + exp_lse
+        max_logic = new_max
+
+    out_ptrs = (
+        Out
+        + cur_batch * stride_ob
+        + cur_head * stride_oh
+        + offs_d * stride_od
+    )
+    final_val = acc / sum_exp
+    tl.store(out_ptrs, final_val.to(Out.dtype.element_ty))
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+):
+    batch, head_num, D = Mid_O.shape[0], Mid_O.shape[1], Mid_O.shape[-1]
+    assert D in {16, 32, 64, 128, 256, 512}
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2) if Mid_O.ndim == 4 else 0,
+        Mid_O.stride(-1),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2) if Mid_O_LogExpSum.ndim == 3 else 0,
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2) if Out.ndim == 3 else Out.stride(-1),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=D,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py.stdout
new file mode 100644
index 0000000..46ceb43
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_506478.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_506478 due to 
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py
new file mode 100644
index 0000000..bee2bb6
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py
@@ -0,0 +1,209 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    cur_seqlen = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (cur_seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid).to(tl.float32)
+
+        offs_lse = (
+            cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_lse)
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+
+        exp_logic = tl.exp(tlogic - new_max_logic)
+        acc += exp_logic * tv
+        sum_exp += exp_logic
+        max_logic = new_max_logic
+
+    offs_out = (
+        cur_batch * stride_out_b
+        + cur_head * stride_out_h
+        + offs_d * stride_out_d
+    )
+    tl.store(Out + offs_out, acc / sum_exp)
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+) -> None:
+    batch, head_num = Mid_O.size(0), Mid_O.size(1)
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=Out.size(2),
+        num_warps=4,
+        num_stages=2,
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py.stdout
new file mode 100644
index 0000000..cccb5a0
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_543766.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_543766 due to Dimension out of range (expected to be in range of [-3, 2], but got 3)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py
new file mode 100644
index 0000000..acbae13
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py
@@ -0,0 +1,212 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    cur_seqlen = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (cur_seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+
+        offs_mid_lse = (
+            cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_mid_lse)
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+
+        exp_logic = tl.exp(tlogic - new_max_logic)
+        acc += exp_logic * tv
+        sum_exp += exp_logic
+
+        max_logic = new_max_logic
+
+    offs_out = (
+        cur_batch * stride_out_b
+        + cur_head * stride_out_h
+        + offs_d * stride_out_d
+    )
+    final = acc / sum_exp
+    tl.store(Out + offs_out, final.to(Out.type.element_ty))
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+) -> None:
+    batch, head_num = B_Seqlen.size(0), Mid_O.size(1)
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        1,
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        1,
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=Out.size(2),
+        num_warps=4,
+        num_stages=2,
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py.stdout
new file mode 100644
index 0000000..9555d6d
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_560861.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_560861 due to Dimension out of range (expected to be in range of [-1, 0], but got 1)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py
new file mode 100644
index 0000000..b19a7fd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py
@@ -0,0 +1,197 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    cur_seq_len = tl.load(B_Seqlen + cur_batch)
+    block_n_size = tl.cdiv(cur_seq_len, BLOCK_SEQ)
+
+    offsets_d = tl.arange(0, BLOCK_DMODEL)
+
+    sum_exp = 0.0
+    max_logic = float('-inf')
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        tv_ptrs = Mid_O + cur_batch * stride_mid_ob + cur_head * stride_mid_oh + block_id * stride_mid_os + offsets_d * stride_mid_od
+        tv = tl.load(tv_ptrs).to(tl.float32)
+        tlogic_ptr = Mid_O_LogExpSum + cur_batch * stride_mid_lse_b + cur_head * stride_mid_lse_h + block_id * stride_mid_lse_s
+        tlogic = tl.load(tlogic_ptr).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max)
+        acc = acc * scale
+        sum_exp = sum_exp * scale
+
+        exp_logic = tl.exp(tlogic - new_max)
+        acc += tv * exp_logic
+        sum_exp += exp_logic
+        max_logic = new_max
+
+    out_ptrs = Out + cur_batch * stride_out_b + cur_head * stride_out_h + offsets_d * stride_out_d
+    tl.store(out_ptrs, (acc / sum_exp).to(Out.type.element_ty))
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+    BLOCK_DMODEL: int
+):
+    batch, num_heads = Out.shape[0], Out.shape[1]
+    grid = (batch, num_heads)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py.stdout
new file mode 100644
index 0000000..d102724
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_576804.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_576804 due to flash_decode_stage2() missing 1 required positional argument: 'BLOCK_DMODEL'
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py
new file mode 100644
index 0000000..0dda36d
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py
@@ -0,0 +1,203 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head  = tl.program_id(1)
+    offs_d    = tl.arange(0, BLOCK_DMODEL)
+
+    seq_len   = tl.load(B_Seqlen + cur_batch)
+    n_blocks  = tl.maximum((seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ, 1)
+
+    acc       = tl.zeros([BLOCK_DMODEL], dtype=Mid_O.dtype.element_ty)
+    max_logic = -float('inf')
+    sum_exp   = 0.0
+
+    for i in range(n_blocks):
+        v  = tl.load(
+            Mid_O + cur_batch * stride_mid_ob
+                  + cur_head  * stride_mid_oh
+                  + i         * stride_mid_os
+                  + offs_d    * stride_mid_od
+        )
+        logsum = tl.load(
+            Mid_O_LogExpSum + cur_batch * stride_mid_les_b
+                            + cur_head  * stride_mid_les_h
+                            + i         * stride_mid_les_s
+        )
+        new_max = tl.maximum(logsum, max_logic)
+        scale   = tl.exp(max_logic - new_max)
+        acc     = acc * scale + v * tl.exp(logsum - new_max)
+        sum_exp = sum_exp * scale + tl.exp(logsum - new_max)
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    tl.store(
+        Out + cur_batch * stride_out_b
+            + cur_head  * stride_out_h
+            + offs_d    * stride_out_d,
+        acc
+    )
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+    BLOCK_DMODEL: int = 128,
+):
+    B, H = Out.shape[0], Out.shape[1]
+    grid = (B, H)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3) if Mid_O.ndim == 4 else 1,
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py.stdout
new file mode 100644
index 0000000..74d5df9
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_653084.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_653084 due to Dimension out of range (expected to be in range of [-1, 0], but got 1)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py
new file mode 100644
index 0000000..9b3f4da
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py
@@ -0,0 +1,223 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_b_seqlen,
+    stride_mid_os,
+    stride_mid_oh,
+    stride_mid_ob,
+    stride_mid_od,
+    stride_mid_ls,
+    stride_mid_lh,
+    stride_mid_lb,
+    stride_out_s,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch * stride_b_seqlen)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_block = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        tv = tl.load(
+            Mid_O + cur_batch * stride_mid_os
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_ob
+            + offs_block * stride_mid_od
+        ).to(tl.float32)
+
+        tlogic = tl.load(
+            Mid_O_LogExpSum + cur_batch * stride_mid_ls
+            + cur_head * stride_mid_lh
+            + block_id * stride_mid_lb
+        ).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max)
+        sum_exp *= scale
+        acc *= scale
+
+        tlogic_exp = tl.exp(tlogic - new_max)
+        acc += tv * tlogic_exp
+        sum_exp += tlogic_exp
+
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    tl.store(
+        Out + cur_batch * stride_out_s
+        + cur_head * stride_out_h
+        + offs_block * stride_out_d,
+        acc.to(Out.type.element_ty)
+    )
+
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+):
+    batch = B_Seqlen.shape[0]
+    head_num = Mid_O.shape[1]
+    BLOCK_DMODEL = Mid_O.shape[-1]
+
+    assert BLOCK_SEQ > 0
+    assert Out.shape == (batch, head_num, BLOCK_DMODEL)
+    assert Mid_O.shape[:-1][:3] == (batch, head_num, B_Seqlen.shape[0])
+    assert Mid_O_LogExpSum.shape == (batch, head_num, B_Seqlen.shape[0])
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0) if B_Seqlen.dim() >= 1 else 0,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py.stdout
new file mode 100644
index 0000000..0d5c6f8
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_661704.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_661704 due to 
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py
new file mode 100644
index 0000000..fe19f0a
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py
@@ -0,0 +1,213 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_obs,
+    stride_mid_oh,
+    stride_mid_oseq,
+    stride_mid_od,
+    stride_mid_les_bs,
+    stride_mid_les_h,
+    stride_mid_les_seq,
+    stride_out_bs,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    cur_seq_len = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (cur_seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        tv = tl.load(
+            Mid_O
+            + cur_batch * stride_mid_obs
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_oseq
+            + offs_d * stride_mid_od
+        )
+        tlogic = tl.load(
+            Mid_O_LogExpSum
+            + cur_batch * stride_mid_les_bs
+            + cur_head * stride_mid_les_h
+            + block_id * stride_mid_les_seq
+        )
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max_logic)
+        acc = acc * scale
+        sum_exp = sum_exp * scale
+
+        exp_logic = tl.exp(tlogic - new_max_logic)
+        acc += tv * exp_logic
+        sum_exp += exp_logic
+
+        max_logic = new_max_logic
+
+    acc = acc / sum_exp
+    tl.store(
+        Out
+        + cur_batch * stride_out_bs
+        + cur_head * stride_out_h
+        + offs_d * stride_out_d,
+        acc,
+    )
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+    BLOCK_DMODEL: int = 128,
+):
+    B, H = Out.shape[0], Out.shape[1]
+    grid = (B, H)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py.stdout
new file mode 100644
index 0000000..a17c0dc
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_684759.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_684759 due to Dimension out of range (expected to be in range of [-3, 2], but got 3)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py
new file mode 100644
index 0000000..8e639d5
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py
@@ -0,0 +1,214 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    seqlen = tl.load(B_Seqlen + cur_batch).to(tl.int32)
+    block_n_size = tl.maximum(0, (seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ)
+
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+
+        offs_mid_lse = (
+            cur_batch * stride_mid_les_b
+            + cur_head * stride_mid_les_h
+            + block_id * stride_mid_les_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_mid_lse).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+
+        exp_val = tl.exp(tlogic - new_max)
+        acc += tv * exp_val
+        sum_exp += exp_val
+        max_logic = new_max
+
+    acc = acc / sum_exp
+
+    offs_out = cur_batch * stride_ob + cur_head * stride_oh + offs_d * stride_od
+    tl.store(Out + offs_out, acc.to(Out.dtype.element_ty))
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = None,
+) -> torch.Tensor:
+    if BLOCK_SEQ is None:
+        BLOCK_SEQ = Mid_O.shape[2]
+
+    batch, head_num = Mid_O.shape[0], Mid_O.shape[1]
+    BLOCK_DMODEL = Mid_O.shape[-1]
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_690508.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py
new file mode 100644
index 0000000..e1f07d1
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py
@@ -0,0 +1,214 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch).to(tl.int32)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    sum_exp = 0.0
+    max_logic = -float("inf")
+
+    for block_id in range(0, block_n_size):
+        v = tl.load(
+            Mid_O
+            + cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        lse = tl.load(
+            Mid_O_LogExpSum
+            + cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_s
+        )
+
+        new_max = tl.maximum(max_logic, lse)
+        old_scale = tl.exp(max_logic - new_max)
+        exp_lse = tl.exp(lse - new_max)
+
+        acc = acc * old_scale + v.to(tl.float32) * exp_lse
+        sum_exp = sum_exp * old_scale + exp_lse
+        max_logic = new_max
+
+    out_vals = acc / sum_exp
+    tl.store(
+        Out
+        + cur_batch * stride_ob
+        + cur_head * stride_oh
+        + offs_d * stride_od,
+        out_vals.to(Out.dtype.element_ty)
+    )
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+):
+    B_total, H, D = Mid_O.shape
+    seq_block_num = 1
+
+    Mid_O = Mid_O.view(B_total, H, seq_block_num, D)
+    Mid_O_LogExpSum = Mid_O_LogExpSum.view(B_total, H, seq_block_num)
+
+    BLOCK_DMODEL = D
+    grid = (B_total, H)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py.stdout
new file mode 100644
index 0000000..74e4d5a
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_720655.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_720655 due to shape '[2, 4, 1]' is invalid for input of size 2
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py
new file mode 100644
index 0000000..cbd9bd8
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py
@@ -0,0 +1,219 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,               # [batch, head_num, seq_blocks, BLOCK_DMODEL]
+    Mid_O_LogExpSum,     # [batch, head_num, seq_blocks]
+    Out,                 # [batch, head_num, BLOCK_DMODEL]
+    stride_mid_obh,      # stride(batch, head)
+    stride_mid_ob,       # stride(seq_blocks)
+    stride_mid_o,        # stride(BLOCK_DMODEL)
+    stride_mid_o_lsebh,  # stride(batch * head)
+    stride_mid_o_lseb,   # stride(seq_blocks)
+    stride_ob,           # stride(batch, head)
+    stride_oh,           # stride(head_num)
+    stride_od,           # stride(BLOCK_DMODEL)
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch)
+
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        offset_mid_o_bh = cur_batch * stride_mid_obh + cur_head * stride_oh
+        ptr_tv = (
+            Mid_O
+            + offset_mid_o_bh
+            + block_id * stride_mid_ob
+            + offs_d * stride_mid_o
+        )
+
+        mask = block_id * BLOCK_SEQ + tl.arange(0, BLOCK_SEQ) < seq_len
+        valid_len = tl.sum(mask.to(tl.int32))
+
+        tv = tl.load(ptr_tv)
+        ptr_tlogic = (
+            Mid_O_LogExpSum
+            + offset_mid_o_bh
+            + block_id * stride_mid_o_lseb
+        )
+        tlogic = tl.load(ptr_tlogic)
+
+        max_prev = max_logic
+        max_logic = tl.maximum(max_prev, tlogic)
+        sum_exp = sum_exp * tl.exp(max_prev - max_logic) + tl.exp(tlogic - max_logic)
+        acc = acc * tl.exp(max_prev - max_logic) + tv * tl.exp(tlogic - max_logic)
+
+    result = acc / (sum_exp + 1e-7)
+
+    ptr_out = Out + cur_batch * stride_ob + cur_head * stride_oh + offs_d * stride_od
+    tl.store(ptr_out, result.cast(ptr_out.dtype.element_ty))
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+    BLOCK_DMODEL: int = 128,
+    BLOCK_SIZE: int = 64,
+):
+    batch_num, head_num, seq_blocks, _ = Mid_O.shape
+    assert Mid_O.dtype == torch.float32
+    assert Mid_O_LogExpSum.dtype == torch.float32
+    block_size = BLOCK_SEQ
+    BLOCK_DMODEL_ = BLOCK_DMODEL
+    triton_grid = (batch_num, head_num)
+
+    seq_len_stride = B_Seqlen.stride(0) if B_Seqlen.stride(0) != 0 else 1
+    mid_o_stride_b, mid_o_stride_h, mid_o_stride_block, mid_o_stride_d = Mid_O.stride()
+    mid_o_lse_stride_bh, _, mid_o_lse_stride_block = Mid_O_LogExpSum.stride()
+    out_stride_b, out_stride_h, out_stride_d = Out.stride()
+
+    _fwd_kernel_flash_decode_stage2[triton_grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        mid_o_stride_b,
+        mid_o_stride_block,
+        mid_o_stride_d,
+        mid_o_lse_stride_bh,
+        mid_o_lse_stride_block,
+        out_stride_b,
+        out_stride_h,
+        out_stride_d,
+        BLOCK_SEQ=block_size,
+        BLOCK_DMODEL=BLOCK_DMODEL_,
+        BLOCK_M=BLOCK_SIZE,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py.stdout
new file mode 100644
index 0000000..a8086f0
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_721584.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_721584 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py
new file mode 100644
index 0000000..c927683
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py
@@ -0,0 +1,214 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_bseqlen,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    seqlen = tl.load(B_Seqlen + cur_batch * stride_bseqlen)
+    block_n_size = (seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+
+        offs_mid_lse = (
+            cur_batch * stride_mid_les_b
+            + cur_head * stride_mid_les_h
+            + block_id * stride_mid_les_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_mid_lse).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+
+        exp_val = tl.exp(tlogic - new_max)
+        acc += tv * exp_val
+        sum_exp += exp_val
+        max_logic = new_max
+
+    acc = acc / sum_exp
+
+    offs_out = cur_batch * stride_ob + cur_head * stride_oh + offs_d * stride_od
+    tl.store(Out + offs_out, acc.to(Out.type.element_ty))
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+) -> torch.Tensor:
+    batch = Mid_O.size(0)
+    head_num = Mid_O.size(1)
+    BLOCK_DMODEL = Mid_O.size(-1)
+    BLOCK_SEQ = Mid_O.size(-2)
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0),
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py.stdout
new file mode 100644
index 0000000..9791cce
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_735113.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_735113 due to flash_decode_stage2() takes 4 positional arguments but 5 were given
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py
new file mode 100644
index 0000000..a327a5e
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py
@@ -0,0 +1,212 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    cur_seqlen = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (cur_seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+
+        offs_mid_lse = (
+            cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_mid_lse)
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+
+        exp_logic = tl.exp(tlogic - new_max_logic)
+        acc += exp_logic * tv
+        sum_exp += exp_logic
+
+        max_logic = new_max_logic
+
+    offs_out = (
+        cur_batch * stride_out_b
+        + cur_head * stride_out_h
+        + offs_d * stride_out_d
+    )
+    final = acc / sum_exp
+    tl.store(Out + offs_out, final.to(Out.type.element_ty))
+
+def flash_decode_stage2(
+    b_seq_len: torch.Tensor,
+    mid_out: torch.Tensor,
+    mid_out_logexpsum: torch.Tensor,
+    output: torch.Tensor,
+    BLOCK_SEQ: int,
+) -> None:
+    batch, head_num = b_seq_len.size(0), mid_out.size(1)
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        b_seq_len,
+        mid_out,
+        mid_out_logexpsum,
+        output,
+        mid_out.stride(0),
+        mid_out.stride(1),
+        mid_out.stride(2),
+        1,
+        mid_out_logexpsum.stride(0),
+        mid_out_logexpsum.stride(1),
+        mid_out_logexpsum.stride(2),
+        output.stride(0),
+        output.stride(1),
+        1,
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=output.size(2),
+        num_warps=4,
+        num_stages=2,
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py.stdout
new file mode 100644
index 0000000..5d92dd1
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_739112.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_739112 due to Dimension out of range (expected to be in range of [-1, 0], but got 1)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py
new file mode 100644
index 0000000..0f24744
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py
@@ -0,0 +1,218 @@
+
+import torch
+import triton
+import triton.language as tl
+# import math # Only if standard math functions are truly needed outside the kernel
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_obs,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    cur_seq_len = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (cur_seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        tv = tl.load(
+            Mid_O
+            + cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+
+        tlogic = tl.load(
+            Mid_O_LogExpSum
+            + cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_s
+        )
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max_logic)
+        exp_logic = tl.exp(tlogic - new_max_logic)
+
+        acc = acc * scale + tv * exp_logic
+        sum_exp = sum_exp * scale + exp_logic
+        max_logic = new_max_logic
+
+    acc = acc / sum_exp
+
+    offs_out = (
+        cur_batch * stride_obs
+        + cur_head * stride_oh
+        + offs_d * stride_od
+    )
+    tl.store(Out + offs_out, acc.to(Out.dtype.element_ty))
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+    BLOCK_DMODEL: int,
+):
+    batch, head_num, seq_block, head_dim = Mid_O.shape
+    assert head_dim == BLOCK_DMODEL
+    num_warps = 4
+    num_stages = 2
+
+    grid = (batch, head_num)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=num_warps,
+        num_stages=num_stages,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py.stdout
new file mode 100644
index 0000000..b2fc4bf
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_754689.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_754689 due to flash_decode_stage2() missing 1 required positional argument: 'BLOCK_DMODEL'
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py
new file mode 100644
index 0000000..9a02743
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py
@@ -0,0 +1,241 @@
+
+import torch
+import triton
+import triton.language as tl
+import math
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,              # [B, H, seq_block_num, D]
+    Mid_O_LogExpSum,    # [B, H, seq_block_num]
+    Out,                # [B, H, D]
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_s,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    # program ids
+    cur_batch = tl.program_id(0)
+    cur_head  = tl.program_id(1)
+
+    # load actual sequence length
+    cur_seq_len = tl.load(B_Seqlen + cur_batch).to(tl.int32)
+    block_n_size = (cur_seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    # initialize softmax accumulators
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    # register mapping across D
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        tv = tl.load(
+            Mid_O
+            + cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od,
+        )
+
+        tlogic = tl.load(
+            Mid_O_LogExpSum
+            + cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_s,
+        )
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max_logic)
+        exp_logic = tl.exp(tlogic - new_max_logic)
+
+        acc = acc * scale + tv * exp_logic
+        sum_exp = sum_exp * scale + exp_logic
+        max_logic = new_max_logic
+
+    # avoid possible NaN when every block has identical logic
+    acc = acc / sum_exp
+
+    # write final result
+    offs_out = (
+        cur_batch * stride_ob
+        + cur_head * stride_oh
+        + offs_d * stride_od
+    )
+    tl.store(Out + offs_out, acc.to(Out.dtype.element_ty))
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+):
+    """
+    Triton wrapper matching externally generated unit-test signature.
+
+    Parameters:
+        B_Seqlen            : [B] int32 — sequence lengths per batch
+        Mid_O               : [B, H, seq_block_num, D]
+        Mid_O_LogExpSum     : [B, H, seq_block_num]   (accumulated/pre-rotated logit terms)
+        Out                 : [B, H, D]               (output to populate)
+        BLOCK_SEQ           : int — blocking granularity
+    Returns:
+        torch.Tensor        : Out view after completion
+    """
+
+    B, H, seq_block_num, D = Mid_O.shape
+    assert Mid_O_LogExpSum.shape == (B, H, seq_block_num)
+    assert B_Seqlen.shape == (B,)
+    assert Out.shape == (B, H, D)
+
+    # Kernel compile-time constants taken from tensor shapes
+    BLOCK_DMODEL = D
+
+    grid = (B, H)
+    num_warps = 4
+    num_stages = 2
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=num_warps,
+        num_stages=num_stages,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py.stdout
new file mode 100644
index 0000000..bb5d328
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_802348.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_802348 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py
new file mode 100644
index 0000000..18eee97
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py
@@ -0,0 +1,226 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_b_seqlen,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_l_b,
+    stride_mid_l_h,
+    stride_mid_l_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch * stride_b_seqlen)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        tv = tl.load(
+            Mid_O + cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        ).to(tl.float32)
+
+        tlogic = tl.load(
+            Mid_O_LogExpSum + cur_batch * stride_mid_l_b
+            + cur_head * stride_mid_l_h
+            + block_id * stride_mid_l_s
+        ).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        scale = tl.exp(max_logic - new_max)
+        sum_exp *= scale
+        acc *= scale
+
+        tlogic_exp = tl.exp(tlogic - new_max)
+        acc += tv * tlogic_exp
+        sum_exp += tlogic_exp
+
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    tl.store(
+        Out + cur_batch * stride_out_b
+        + cur_head * stride_out_h
+        + offs_d * stride_out_d,
+        acc.to(Out.type.element_ty)
+    )
+
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+):
+    batch = B_Seqlen.shape[0]
+    head_num = Mid_O.shape[1]
+    BLOCK_DMODEL = Mid_O.shape[-1]
+
+    assert BLOCK_SEQ > 0
+    assert Out.shape == (batch, head_num, BLOCK_DMODEL)
+    assert Mid_O.shape[0] == batch
+    assert Mid_O.shape[1] == head_num
+    assert Mid_O.dim() == 4
+    assert Mid_O_LogExpSum.dim() == 3
+    assert Mid_O_LogExpSum.shape[0] == batch
+    assert Mid_O_LogExpSum.shape[1] == head_num
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0),
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_812012.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py
new file mode 100644
index 0000000..de22cbd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py
@@ -0,0 +1,202 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_bseqlen,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_olesb,
+    stride_mid_olesh,
+    stride_mid_oles,
+    stride_oub,
+    stride_ouh,
+    stride_oud,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_head = tl.program_id(1)
+    cur_batch = tl.program_id(0)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    seq_len = tl.load(B_Seqlen + cur_batch * stride_bseqlen)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    for block_n in range(block_n_size):
+        tv = tl.load(Mid_O + cur_batch * stride_mid_ob + cur_head * stride_mid_oh +
+                     block_n * stride_mid_os + offs_d * stride_mid_od)
+        tlogic = tl.load(Mid_O_LogExpSum + cur_batch * stride_mid_olesb +
+                         cur_head * stride_mid_olesh + block_n * stride_mid_oles)
+
+        new_max_logic = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max_logic)
+        new_scale = tl.exp(tlogic - new_max_logic)
+
+        acc = acc * old_scale + tv * new_scale
+        sum_exp = sum_exp * old_scale + new_scale
+        max_logic = new_max_logic
+
+    acc = acc / sum_exp
+    tl.store(Out + cur_batch * stride_oub + cur_head * stride_ouh + offs_d * stride_oud, acc)
+
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    block_seq: int
+):
+    batch = B_Seqlen.shape[0]
+    head_num = Mid_O.shape[1]
+    assert Mid_O_LogExpSum.shape[1] == head_num
+
+    BLOCK_SEQ = block_seq
+    BLOCK_DMODEL = Mid_O.shape[3]
+
+    _fwd_kernel_flash_decode_stage2[(batch, head_num)](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0),
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_83138.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py
new file mode 100644
index 0000000..2f8acde
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py
@@ -0,0 +1,206 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_o_b,
+    stride_mid_o_h,
+    stride_mid_o_block,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_block,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    sum_exp = 0.0
+    max_logic = float('-inf')
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    seq_len = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(block_n_size):
+        tv = tl.load(
+            Mid_O + cur_batch * stride_mid_o_b + cur_head * stride_mid_o_h
+            + block_id * stride_mid_o_block + offs_d
+        )
+
+        tlogic = tl.load(
+            Mid_O_LogExpSum
+            + cur_batch * stride_mid_lse_b
+            + cur_head * stride_mid_lse_h
+            + block_id * stride_mid_lse_block
+        )
+
+        new_max = tl.maximum(max_logic, tlogic)
+        old_scale = tl.math.exp(max_logic - new_max)
+        new_scale = tl.math.exp(tlogic - new_max)
+
+        acc = acc * old_scale
+        acc += tv * new_scale
+        sum_exp = sum_exp * old_scale + new_scale
+        max_logic = new_max
+
+    sum_exp_inv = 1.0 / sum_exp
+    acc = acc * sum_exp_inv
+
+    out_ptr = Out + cur_batch * stride_ob + cur_head * stride_oh + offs_d
+    tl.store(out_ptr, acc.to(out_ptr.dtype.element_ty))
+
+
+@torch.no_grad()
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    block_seq: int,
+):
+    batch, head_num = Out.shape[0], Out.shape[1]
+    BLOCK_DMODEL = Out.shape[2]
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=block_seq,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_870175.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py
new file mode 100644
index 0000000..0dda36d
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py
@@ -0,0 +1,203 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_out_b,
+    stride_out_h,
+    stride_out_d,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head  = tl.program_id(1)
+    offs_d    = tl.arange(0, BLOCK_DMODEL)
+
+    seq_len   = tl.load(B_Seqlen + cur_batch)
+    n_blocks  = tl.maximum((seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ, 1)
+
+    acc       = tl.zeros([BLOCK_DMODEL], dtype=Mid_O.dtype.element_ty)
+    max_logic = -float('inf')
+    sum_exp   = 0.0
+
+    for i in range(n_blocks):
+        v  = tl.load(
+            Mid_O + cur_batch * stride_mid_ob
+                  + cur_head  * stride_mid_oh
+                  + i         * stride_mid_os
+                  + offs_d    * stride_mid_od
+        )
+        logsum = tl.load(
+            Mid_O_LogExpSum + cur_batch * stride_mid_les_b
+                            + cur_head  * stride_mid_les_h
+                            + i         * stride_mid_les_s
+        )
+        new_max = tl.maximum(logsum, max_logic)
+        scale   = tl.exp(max_logic - new_max)
+        acc     = acc * scale + v * tl.exp(logsum - new_max)
+        sum_exp = sum_exp * scale + tl.exp(logsum - new_max)
+        max_logic = new_max
+
+    acc = acc / sum_exp
+    tl.store(
+        Out + cur_batch * stride_out_b
+            + cur_head  * stride_out_h
+            + offs_d    * stride_out_d,
+        acc
+    )
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int = 64,
+    BLOCK_DMODEL: int = 128,
+):
+    B, H = Out.shape[0], Out.shape[1]
+    grid = (B, H)
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3) if Mid_O.ndim == 4 else 1,
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py.stdout
new file mode 100644
index 0000000..bfb8bbc
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_882682.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_882682 due to Dimension out of range (expected to be in range of [-1, 0], but got 1)
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py
new file mode 100644
index 0000000..9880e7d
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py
@@ -0,0 +1,214 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_bseqlen,
+    stride_mid_ob,
+    stride_mid_oh,
+    stride_mid_os,
+    stride_mid_od,
+    stride_mid_les_b,
+    stride_mid_les_h,
+    stride_mid_les_s,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    seqlen = tl.load(B_Seqlen + cur_batch * stride_bseqlen)
+    block_n_size = (seqlen + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = float("-inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    for block_id in range(0, block_n_size):
+        offs_mid_o = (
+            cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(Mid_O + offs_mid_o).to(tl.float32)
+
+        offs_mid_lse = (
+            cur_batch * stride_mid_les_b
+            + cur_head * stride_mid_les_h
+            + block_id * stride_mid_les_s
+        )
+        tlogic = tl.load(Mid_O_LogExpSum + offs_mid_lse).to(tl.float32)
+
+        new_max = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max)
+        acc = acc * old_scale
+        sum_exp = sum_exp * old_scale
+
+        exp_val = tl.exp(tlogic - new_max)
+        acc += tv * exp_val
+        sum_exp += exp_val
+        max_logic = new_max
+
+    acc = acc / sum_exp
+
+    offs_out = cur_batch * stride_ob + cur_head * stride_oh + offs_d * stride_od
+    tl.store(Out + offs_out, acc.to(Out.type.element_ty))
+
+
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+) -> torch.Tensor:
+    batch = Mid_O.size(0)
+    head_num = Mid_O.size(1)
+    BLOCK_DMODEL = Mid_O.size(-1)
+    BLOCK_SEQ = Mid_O.size(-2)
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        B_Seqlen.stride(0),
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+    return Out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py.stdout
new file mode 100644
index 0000000..9c6a9f6
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_900175.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_900175 due to flash_decode_stage2() takes 4 positional arguments but 5 were given
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py
new file mode 100644
index 0000000..1a4fe4c
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py
@@ -0,0 +1,218 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,               # [batch, head_num, seq_blocks, BLOCK_DMODEL]
+    Mid_O_LogExpSum,     # [batch, head_num, seq_blocks]
+    Out,                 # [batch, head_num, BLOCK_DMODEL]
+    stride_mid_ob,       # stride(batch)
+    stride_mid_oh,       # stride(head_num)
+    stride_mid_os,       # stride(seq_blocks)
+    stride_mid_od,       # stride(BLOCK_DMODEL)
+    stride_mid_o_eb,     # stride(batch)
+    stride_mid_o_eh,     # stride(head_num)
+    stride_mid_o_es,     # stride(seq_blocks)
+    stride_ob,           # stride(batch)
+    stride_oh,           # stride(head_num)
+    stride_od,           # stride(BLOCK_DMODEL)
+    BLOCK_SEQ: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    seq_len = tl.load(B_Seqlen + cur_batch)
+
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    sum_exp = 0.0
+    max_logic = -float("inf")
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    offs_d = tl.arange(0, BLOCK_DMODEL)
+
+    for block_id in range(0, block_n_size):
+        ptr_tv = (
+            Mid_O
+            + cur_batch * stride_mid_ob
+            + cur_head * stride_mid_oh
+            + block_id * stride_mid_os
+            + offs_d * stride_mid_od
+        )
+        tv = tl.load(ptr_tv)
+
+        ptr_tlogic = (
+            Mid_O_LogExpSum
+            + cur_batch * stride_mid_o_eb
+            + cur_head * stride_mid_o_eh
+            + block_id * stride_mid_o_es
+        )
+        tlogic = tl.load(ptr_tlogic)
+
+        max_prev = max_logic
+        max_logic = tl.maximum(max_prev, tlogic)
+        sum_exp = sum_exp * tl.exp(max_prev - max_logic) + tl.exp(tlogic - max_logic)
+        acc = acc * tl.exp(max_prev - max_logic) + tv * tl.exp(tlogic - max_logic)
+
+    result = acc / (sum_exp + 1e-6)
+
+    ptr_out = (
+        Out
+        + cur_batch * stride_ob
+        + cur_head * stride_oh
+        + offs_d * stride_od
+    )
+    tl.store(ptr_out, result.to(ptr_out.dtype.element_ty))
+
+
+@torch.no_grad()
+def flash_decode_stage2(
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    B_Seqlen: torch.Tensor,
+    Out: torch.Tensor,
+    block_seq: int,
+):
+    batch, head_num, seq_blocks, BLOCK_DMODEL = Mid_O.shape
+
+    triton_grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[
+        triton_grid
+    ](
+        B_Seqlen,
+        Mid_O,
+        Mid_O_LogExpSum,
+        Out,
+        Mid_O.stride(0),
+        Mid_O.stride(1),
+        Mid_O.stride(2),
+        Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0),
+        Mid_O_LogExpSum.stride(1),
+        Mid_O_LogExpSum.stride(2),
+        Out.stride(0),
+        Out.stride(1),
+        Out.stride(2),
+        BLOCK_SEQ=block_seq,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+        num_warps=4,
+        num_stages=2,
+    )
+    return
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_925215.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py
new file mode 100644
index 0000000..284b8d3
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py
@@ -0,0 +1,193 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _fwd_kernel_flash_decode_stage2(
+    B_Seqlen,
+    Mid_O,
+    Mid_O_LogExpSum,
+    Out,
+    stride_mid_o_b,
+    stride_mid_o_h,
+    stride_mid_o_block,
+    stride_mid_o_d,
+    stride_mid_lse_b,
+    stride_mid_lse_h,
+    stride_mid_lse_block,
+    stride_ob,
+    stride_oh,
+    stride_od,
+    BLOCK_SEQ: tl.constexpr,          
+    BLOCK_DMODEL: tl.constexpr,
+):
+    cur_batch = tl.program_id(0)
+    cur_head = tl.program_id(1)
+
+    sum_exp = 0.0
+    max_logic = float('-inf')
+    acc = tl.zeros([BLOCK_DMODEL], dtype=tl.float32)
+
+    seq_len = tl.load(B_Seqlen + cur_batch)
+    block_n_size = (seq_len + BLOCK_SEQ - 1) // BLOCK_SEQ
+
+    for block_id in range(block_n_size):
+
+        offs_d = tl.arange(0, BLOCK_DMODEL)
+
+        cur_mid_o_ptr = Mid_O + cur_batch * stride_mid_o_b + cur_head * stride_mid_o_h + block_id * stride_mid_o_block + offs_d * stride_mid_o_d
+        tv = tl.load(cur_mid_o_ptr)                                       # [BLOCK_DMODEL]
+
+        cur_mid_lse_ptr = Mid_O_LogExpSum + cur_batch * stride_mid_lse_b + cur_head * stride_mid_lse_h + block_id * stride_mid_lse_block
+        tlogic = tl.load(cur_mid_lse_ptr)                                 # scalar
+
+        new_max = tl.maximum(max_logic, tlogic)
+        old_scale = tl.exp(max_logic - new_max)
+        new_scale = tl.exp(tlogic - new_max)
+
+        acc = acc * old_scale
+        acc += tv * new_scale
+        sum_exp = sum_exp * old_scale + new_scale
+        max_logic = new_max
+
+    sum_exp_inv = 1.0 / sum_exp
+    acc = acc * sum_exp_inv
+
+    out_ptr = Out + cur_batch * stride_ob + cur_head * stride_oh + offs_d * stride_od
+    tl.store(out_ptr, acc.to(out_ptr.type.element_ty))
+
+
+def flash_decode_stage2(
+    B_Seqlen: torch.Tensor,
+    Mid_O: torch.Tensor,
+    Mid_O_LogExpSum: torch.Tensor,
+    Out: torch.Tensor,
+    BLOCK_SEQ: int,
+):
+    batch, head_num = Out.shape[0], Out.shape[1]
+    BLOCK_DMODEL = Out.shape[2]
+
+    grid = (batch, head_num)
+
+    _fwd_kernel_flash_decode_stage2[grid](
+        B_Seqlen,
+        Mid_O, Mid_O_LogExpSum, Out,
+        Mid_O.stride(0), Mid_O.stride(1), Mid_O.stride(2), Mid_O.stride(3),
+        Mid_O_LogExpSum.stride(0), Mid_O_LogExpSum.stride(1), Mid_O_LogExpSum.stride(2),
+        Out.stride(0), Out.stride(1), Out.stride(2),
+        BLOCK_SEQ=BLOCK_SEQ,
+        BLOCK_DMODEL=BLOCK_DMODEL,
+    )
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Define the test function
+
+def test_flash_decode_stage2():
+
+    # Define the parameters for different test cases
+
+    batch_size = 2
+
+    head_num = 4
+
+    seq_block_num = 3
+
+    head_dim = 64
+
+    block_seq = 16
+
+
+
+    test_cases = {
+
+        "test_case_1": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq
+
+        },
+
+        "test_case_2": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq + 1  # Different block size
+
+        },
+
+        "test_case_3": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq // 2  # Different block size
+
+        },
+
+        "test_case_4": {
+
+            "B_Seqlen": torch.randint(1, seq_block_num * block_seq, (batch_size,), dtype=torch.int32, device='cuda'),
+
+            "mid_out": torch.randn((batch_size, head_num, seq_block_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "mid_out_logexpsum": torch.randn((batch_size, head_num, seq_block_num), dtype=torch.float32, device='cuda'),
+
+            "Out": torch.zeros((batch_size, head_num, head_dim), dtype=torch.float32, device='cuda'),
+
+            "block_seq": block_seq * 2  # Different block size
+
+        }
+
+    }
+
+
+
+    # Execute the function for all test cases
+
+    results = {}
+
+    for key, test_case in test_cases.items():
+
+        flash_decode_stage2(test_case["mid_out"], test_case["mid_out_logexpsum"], test_case["B_Seqlen"], test_case["Out"], test_case["block_seq"])
+
+        results[key] = test_case["Out"]
+
+
+
+    return results
+
+
+
+# Run the test
+
+result_gold = test_flash_decode_stage2()
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py.stderr b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py.stdout b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py.stdout
new file mode 100644
index 0000000..a065d90
--- /dev/null
+++ b/src/temp/gen/flash_decode2_phi.py_gen_triton_code_959027.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module flash_decode2_phi.py_gen_triton_code_959027 due to Dimension out of range (expected to be in range of [-3, 2], but got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py b/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py
new file mode 100644
index 0000000..55540cf
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py
@@ -0,0 +1,197 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# --------------------------------------------------
+# Triton kernel
+# --------------------------------------------------
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    x_ptr, qw_ptr, sc_ptr, zp_ptr, c_ptr,
+    M, N, K,
+    stride_xm, stride_xk,
+    stride_qwk, stride_qwn,
+    stride_scg, stride_scn,
+    stride_zpg, stride_zpn,
+    stride_cm, stride_cn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    pid_sp_k = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_n = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = pid_sp_k * BLOCK_SIZE_K * SPLIT_K + tl.arange(0, BLOCK_SIZE_K * SPLIT_K)
+
+    mask_m = offs_m < M
+    mask_n = offs_n < N
+    mask_k = offs_k < K
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k0 in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        current_offs_k = k0 * BLOCK_SIZE_K * SPLIT_K + offs_k
+        mask_kk = current_offs_k < K
+
+        x_ptrs = x_ptr + offs_m[:, None] * stride_xm + current_offs_k[None, :] * stride_xk
+        x_blk = tl.load(x_ptrs, mask=mask_m[:, None] & mask_kk[None, :], other=0.0)
+
+        qw_ptrs = qw_ptr + (current_offs_k[:, None] // 8) * stride_qwk + offs_n[None, :] * stride_qwn
+        qw_blk = tl.load(qw_ptrs, mask=mask_kk[:, None] & mask_n[None, :], other=0)
+
+        g_idx = (current_offs_k // group_size)
+        sc_ptrs = sc_ptr + g_idx[:, None] * stride_scg + offs_n[None, :] * stride_scn
+        zp_ptrs = zp_ptr + g_idx[:, None] * stride_zpg + (offs_n[None, :] // 8) * stride_zpn
+
+        sc = tl.load(sc_ptrs, mask=mask_kk[:, None] & mask_n[None, :], other=0.0).to(tl.float32)
+        zp = tl.load(zp_ptrs, mask=mask_kk[:, None] & mask_n[None, :], other=0)
+
+        shifts = (current_offs_k % 8) * 4
+        int4_w = (qw_blk >> shifts[:, None]) & 0xF
+        zp_shifts = (offs_n[None, :] % 8) * 4
+        int4_zp = (zp >> zp_shifts) & 0xF
+        deq_w = ((int4_w.float() - int4_zp.float()) * sc).to(tl.float16)
+
+        acc += tl.dot(x_blk.to(tl.float16), deq_w).to(tl.float32)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    out_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_out = (offs_cm < M)[:, None] & (offs_cn < N)[None, :]
+
+    if SPLIT_K > 1:
+        tl.atomic_add(out_ptrs, acc.astype(tl.float16), mask=mask_out)
+    else:
+        tl.store(out_ptrs, acc.astype(tl.float16), mask=mask_out)
+
+# --------------------------------------------------
+# Wrapper
+# --------------------------------------------------
+def matmul_dequantize_int4_s2(x: torch.Tensor, qweight: torch.Tensor,
+                              scale: torch.Tensor, zero_point: torch.Tensor,
+                              group_size: int = 128) -> torch.Tensor:
+    assert x.dim() == 2
+    assert qweight.dim() == 2
+    assert scale.dim() == 2
+    assert zero_point.dim() == 2
+    M, K = x.shape
+    K8, N = qweight.shape
+    assert K == K8 * 8
+    x = x.contiguous()
+    output = torch.empty((M, N), dtype=torch.float16, device=x.device)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+    matmul_kernel[grid](
+        x, qweight, scale, zero_point, output,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        scale.stride(0), scale.stride(1),
+        zero_point.stride(0), zero_point.stride(1),
+        output.stride(0), output.stride(1),
+        group_size,
+    )
+    return output
+
+# --------------------------------------------------
+# Quantization helpers
+# --------------------------------------------------
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    orig_shape = x.shape
+    x = x.view(-1, orig_shape[-1])
+    K, N = x.shape
+    if K % group_size:
+        pad_k = (K + group_size - 1) // group_size * group_size
+        x = torch.nn.functional.pad(x, (0, 0, 0, pad_k - K))
+        K = pad_k
+    x = x.view(-1, group_size, N)
+    x_min = x.amin(dim=1, keepdim=True)
+    x_max = x.amax(dim=1, keepdim=True)
+    denom = x_max - x_min
+    denom[denom.abs() < 1e-12] = 1.0
+    sc = (denom) / 15.0
+    zp = torch.round(-x_min / sc)
+    q = torch.clamp(torch.round(x / sc + zp), 0, 15).to(torch.int32)
+    qf = q.view(K, N)
+    packed = torch.zeros(K // 8, N, dtype=torch.int32, device=x.device)
+    for shift in range(8):
+        packed |= qf[shift::8, :] << (shift * 4)
+    sc = sc.view(K // group_size, N)
+    zp = zp.view(K // group_size, N)
+    return packed, sc, zp, orig_shape
+
+def unpack_int4(packed: torch.Tensor, scale: torch.Tensor, zero_point: torch.Tensor,
+                group_size: int = 128):
+    K8, N = packed.shape
+    K = K8 * 8
+    w = torch.empty(K, N, dtype=torch.float32, device=packed.device)
+    for shift in range(8):
+        w[shift::8, :] = ((packed >> (shift * 4)) & 0xF).float()
+    scale1 = scale.view(-1, N)
+    zp1 = zero_point.view(-1, N)
+    return ((w.view(-1, group_size, N) - zp1.unsqueeze(1)) * scale1.unsqueeze(1)).view(K, N)
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py.stdout
new file mode 100644
index 0000000..e7a9660
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_124574.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_124574 due to dynamic_func() missing 1 required positional argument: 'SPLIT_K'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_178552.py b/src/temp/gen/int4_matmul.py_gen_triton_code_178552.py
new file mode 100644
index 0000000..556c5fb
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_178552.py
@@ -0,0 +1,173 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=5, num_warps=2),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=5, num_warps=2),
+    ],
+    key=['M', 'N', 'K']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_k, stride_scales_n,
+    stride_zeros_k, stride_zeros_n,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+    grid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    grid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * grid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(grid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K) + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn)
+
+    scales_ptrs = scales_ptr + ((offs_k[None, :] // group_size) * stride_scales_k + offs_n[:, None] * stride_scales_n)
+    zeros_ptrs = zeros_ptr + ((offs_k[None, :] // group_size) * stride_zeros_k + (offs_n[:, None] // 8) * stride_zeros_n)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_start = k * BLOCK_SIZE_K * SPLIT_K + pid_z * BLOCK_SIZE_K
+        idx_k = k_start + tl.arange(0, BLOCK_SIZE_K)
+        mask_k = idx_k[None, :] < K
+        a = tl.load(a_ptrs, mask=mask_k, other=0.0)
+
+        idx_k_packed = (idx_k[None, :] // 8)
+        b = tl.load(b_ptr + idx_k_packed * stride_bk + offs_n[None, :] * stride_bn, mask=mask_k, other=0)
+
+        idx_g = (idx_k[None, :] // group_size)
+        bs = tl.load(scales_ptr + idx_g * stride_scales_k + offs_n[None, :] * stride_scales_n, mask=mask_k, other=1.0)
+        zs = tl.load(zeros_ptr + idx_g * stride_zeros_k + (offs_n[None, :] // 8) * stride_zeros_n, mask=mask_k, other=0.0)
+
+        shift = (idx_k[None, :] % 8) * 4
+        int4_val = (b >> shift) & 0xF
+        zp4_val_all = zs & 0x0F0F0F0F
+        zp4_val = (zs >> ((offs_n[None, :] % 8) * 4)) & 0xF
+        b_fp = (int4_val - zp4_val) * bs
+        accumulator += tl.dot(a, b_fp.to(a.dtype))
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    if SPLIT_K > 1:
+        tl.atomic_add(c_ptrs, accumulator, mask=mask_c)
+    else:
+        tl.store(c_ptrs, accumulator, mask=mask_c)
+
+def matmul_dequantize_int4_s2(x: torch.Tensor, qweight: torch.Tensor, scales: torch.Tensor, qzeros: torch.Tensor, K: int) -> torch.Tensor:
+    M, _ = x.shape
+    _, N = qweight.shape
+
+    c = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, c,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        c.stride(0), c.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        128
+    )
+    return c
+
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, None]:
+    shape = weights.shape
+    w = weights.to(torch.float32).reshape(-1, group_size)
+    w_min = w.min(dim=1, keepdim=True)[0]
+    w_max = w.max(dim=1, keepdim=True)[0]
+    scales = (w_max - w_min) / 15.0
+    zeros = -w_min / scales
+    w = torch.round((w - w_min) / scales).clamp(0, 15).to(torch.uint8)
+    packed = torch.zeros(w.shape[0], (w.shape[1] + 1) // 2, dtype=torch.int32, device=weights.device)
+    packed[:, :w.shape[1]//2] = (w[:, ::2] & 0x0F) | ((w[:, 1::2] & 0x0F) << 4)
+    packed = packed.reshape(shape[0], shape[1] // 8)
+    scales = scales.reshape(shape[0], shape[1] // group_size)
+    zeros = zeros.reshape(shape[0], shape[1] // group_size)
+    return packed, scales, zeros, None
+
+def unpack_int4(weights: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    shape = weights.shape
+    assert shape[-1] == scales.shape[-1]
+    w = weights.view(-1, weights.shape[-1])
+    scales = scales.view(-1, scales.shape[-1])
+    zeros = zeros.view(-1, zeros.shape[-1])
+    unpacked = torch.zeros(w.shape[0], w.shape[1] * 8, dtype=torch.float32, device=weights.device)
+    for i in range(8):
+        unpacked[:, i::8] = ((w >> (4*i)) & 0x0F) * scales[:, w.shape[1]*(8*i)//group_size:w.shape[1]*(8*i)//group_size+1].expand(-1, unpacked.shape[1]//8) + \
+                            zeros[:, w.shape[1]*(8*i)//group_size:w.shape[1]*(8*i)//group_size+1].expand(-1, unpacked.shape[1]//8)
+    return unpacked.reshape(weights.shape[0], weights.shape[1] * 8)
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_178552.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_178552.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_178552.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_178552.py.stdout
new file mode 100644
index 0000000..8596f88
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_178552.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_178552 due to shape '[4096, 512]' is invalid for input of size 8388608
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_216434.py b/src/temp/gen/int4_matmul.py_gen_triton_code_216434.py
new file mode 100644
index 0000000..6a648a3
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_216434.py
@@ -0,0 +1,217 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 256,'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128,'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 128,'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 128,'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=2,num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3,num_warps=8),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m  = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n  = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k  = pid_z * (BLOCK_SIZE_K) + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + ((offs_k[:, None] // 8) * stride_bk) + offs_n[None, :] * stride_bn
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_off = k * BLOCK_SIZE_K * SPLIT_K
+        k_now = k_off + offs_k
+        a = tl.load(a_ptrs, mask=k_now[None, :] < K, other=0.0)
+
+        b_packed = tl.load(b_ptrs, mask=k_now[:, None] < K, other=0)
+        b_shift  = ((k_now[:, None] % 8) * 4)
+        b_i4     = (b_packed >> b_shift) & 0xF
+
+        g_id  = k_now[:, None] // group_size
+        b_scale = tl.load(bs_ptr + g_id * stride_bsk + offs_n[None, :] * stride_bsn,
+                          mask=k_now[:, None] < K, other=0.0)
+        b_zero  = tl.load(bzp_ptr + g_id * stride_bzpk + (offs_n[None, :] // 8) * stride_bzpn,
+                          mask=k_now[:, None] < K, other=0)
+
+        zp_shift = ((offs_n[None, :] % 8) * 4)
+        b_zp_i4  = (b_zero >> zp_shift) & 0xF
+
+        b_float = (b_i4 - b_zp_i4) * b_scale
+        acc += tl.dot(a, b_float.to(a.dtype))
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+
+    c = acc
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs  = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask    = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor,
+                              qzeros: torch.IntTensor, group_size: int = 128, output=None) -> torch.FloatTensor:
+    M, K = x.shape
+    _, N = scales.shape
+    assert K == qweight.shape[0] * 8
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size, )
+    return output
+
+
+def quantize_int4(w: torch.Tensor, group_size: int = 128):
+    w = w.float()
+    oc, ic = w.shape          # (K, N) un-transposed
+    assert ic % group_size == 0
+    w = w.view(oc, ic // group_size, group_size)
+
+    wmax = w.max(dim=2, keepdim=True)[0]
+    wmin = w.min(dim=2, keepdim=True)[0]
+    scale = (wmax - wmin) / 15.0
+    zero  = torch.round(-wmin / scale).clamp(0, 15).to(torch.uint8)
+
+    q = torch.round((w - wmin) / scale).clamp(0, 15).to(torch.uint8)
+
+    q = q.view(oc, ic)
+    zero = zero.view(oc, ic // group_size)
+
+    ncols = ic
+    packed = torch.zeros((oc, ncols // 8), dtype=torch.int32, device=w.device)
+    for i in range(0, ncols, 8):
+        chunk = q[:, i:i+8].to(torch.int32)
+        packed[:, i//8] = (
+            chunk[:,7] << 28 |
+            chunk[:,6] << 24 |
+            chunk[:,5] << 20 |
+            chunk[:,4] << 16 |
+            chunk[:,3] << 12 |
+            chunk[:,2] << 8  |
+            chunk[:,1] << 4  |
+            chunk[:,0]
+        )
+
+    zero_packed = torch.zeros((oc, (ncols // group_size + 7) // 8),
+                              dtype=torch.int32, device=w.device)
+    nz = zero.shape[1]
+    for i in range(0, nz, 8):
+        zchunk = zero[:, i:i+8].to(torch.int32)
+        idx = torch.arange(zchunk.size(1), device=w.device)
+        zpacked = torch.sum(zchunk << (idx * 4), dim=1, keepdim=True)
+        zero_packed[:, i//8] = zpacked.squeeze(1)
+
+    return packed.view(torch.int32), scale.squeeze(-1).half(), zero_packed.view(torch.int32)
+
+
+def unpack_int4(w_packed: torch.IntTensor, scale: torch.FloatTensor,
+                zero: torch.IntTensor, group_size: int = 128):
+    oc, Nw = w_packed.shape
+    ic = Nw * 8
+    num_groups = ic // group_size
+    scale = scale.view(oc, num_groups, 1).expand(-1, -1, group_size).reshape(oc, ic)
+    zero_shape = (oc, num_groups)
+    nz = zero.shape[1] * 8
+    zero = zero.view(oc, nz)[:, :num_groups]
+    zero = zero.view(oc, num_groups, 1).expand(-1, -1, group_size).reshape(oc, ic)
+
+    w_bytes = w_packed.view(torch.uint8).view(oc, ic // 2)
+    w = torch.empty((oc, ic), dtype=torch.uint8, device=w_packed.device)
+    for k in range(0, ic, 2):
+        b = w_bytes[:, k//2]
+        w[:, k]   = (b & 0xF).to(torch.uint8)
+        w[:, k+1] = ((b >> 4) & 0xF).to(torch.uint8)
+
+    return (w.float() - zero.float()) * scale.float()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_216434.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_216434.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_216434.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_216434.py.stdout
new file mode 100644
index 0000000..63d9c5d
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_216434.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_216434 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_219875.py b/src/temp/gen/int4_matmul.py_gen_triton_code_219875.py
new file mode 100644
index 0000000..bc48d3b
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_219875.py
@@ -0,0 +1,216 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 16, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 256,
+                       'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64,
+                       'GROUP_SIZE_M': 8}, num_stages=1, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32,
+                       'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64,
+                       'GROUP_SIZE_M': 8}, num_stages=1, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32,
+                       'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32,
+                       'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 64,
+                       'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 128,
+                       'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 128,
+                       'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K']
+)
+@triton.jit
+def matmul_kernel(
+    A, B, C,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bq, stride_bs, stride_bz,
+    SPLIT_K: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    pid_k = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    k_start = pid_k * tl.cdiv(K, SPLIT_K)
+    k_end   = min((pid_k + 1) * tl.cdiv(K, SPLIT_K), K)
+
+    offs_k = k_start + tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = A + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = B + (offs_k // 2)[:, None] * stride_bk + offs_n[None, :] * stride_bn
+
+    accum = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    group_size = tl.constexpr(32)
+    for k in range(k_start, k_end, BLOCK_SIZE_K):
+        k_valid = k + tl.arange(0, BLOCK_SIZE_K)
+        a = tl.load(a_ptrs, mask=(offs_m[:, None] < M) & (k_valid[None, :] < K), other=0.0)
+
+        qoffs = k_valid // group_size
+        shift = ((k_valid % group_size) & 1) * 4
+        mask = (k_valid < K)[:, None]
+
+        packed = tl.load(B + (k_valid // 2)[:, None] * stride_bk + offs_n[None, :] * stride_bn,
+                         mask=mask & (offs_n[None, :] < N), other=0)
+        packed = packed.to(tl.int32)
+
+        scale_ptrs = B + stride_bq + qoffs[:, None] * stride_bs
+        zero_ptrs  = B + stride_bq + qoffs[:, None] * stride_bz
+        scale = tl.load(scale_ptrs, mask=mask, other=0.0)
+        zero  = tl.load(zero_ptrs,  mask=mask, other=0.0)
+
+        q = ((packed >> shift[:, None]) & 0xF).to(tl.float32)
+        b = (q - zero) * scale
+        accum += tl.dot(a, b)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = C + offs_m[:, None] * stride_cm + offs_n[None, :] * stride_cn
+    mask = (offs_m[:, None] < M) & (offs_n[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, accum, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, accum, mask=mask)
+
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor, w: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor,
+    split_k: int = 1
+) -> torch.Tensor:
+    B, M, K = x.shape
+    K_packed = w.shape[0]
+    N = w.shape[1]
+    assert K_packed == K // 2, f"Packed shape {K_packed} must equal K//2={K//2}"
+    assert w.dtype == torch.int32
+    c = torch.empty((B, M, N), dtype=x.dtype, device=x.device)
+
+    total_M = B * M
+    grid = lambda META: (
+        triton.cdiv(total_M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        split_k
+    )
+
+    aux = torch.empty((2 * (scales.numel() + zeros.numel()),), dtype=torch.float32, device=w.device)
+    stride_bq = w.numel() * 4
+    stride_bs = scales.stride(-1) if scales.dim() >= 1 else 1
+    stride_bz = zeros.stride(-1)  if zeros.dim()  >= 1 else 1
+
+    matmul_kernel[grid](
+        x.view(-1, K), w, c.view(-1, N),
+        total_M, N, K,
+        x.stride(-2) if x.dim() >= 2 else K,
+        x.stride(-1) if x.dim() >= 1 else 1,
+        w.stride(-2),
+        w.stride(-1),
+        c.stride(-2) if c.dim() >= 2 else N,
+        c.stride(-1) if c.dim() >= 1 else 1,
+        stride_bq, stride_bs, stride_bz,
+        SPLIT_K=split_k,
+        GROUP_SIZE_M=8,
+    )
+    return c
+
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    assert weights.dim() == 2, "weights must be 2-D (K, N)"
+    K, N = weights.shape
+    assert K % group_size == 0, f"K={K} must divide group_size={group_size}"
+    num_groups = K // group_size
+    flat = weights.to(torch.float32).view(num_groups, group_size, N)
+
+    mn, mx = flat.aminmax(dim=1, keepdim=True)
+    scale = (mx - mn) / 15.0
+    scale = torch.where(scale == 0, 1.0, scale)
+    zero  = -mn / scale
+
+    q = ((flat / scale + zero + 0.5).floor()).clamp(0, 15)
+    q = q.view(num_groups * group_size, N)
+
+    q_low  = q[:q.shape[0]//2]
+    q_high = q[q.shape[0]//2:]
+    packed = (q_low & 0xF) | ((q_high & 0xF) << 4)
+    packed = packed.view(K // 2, N).to(torch.int32)
+
+    scale = scale.squeeze(-2).squeeze(-1)
+    zero  = zero.squeeze(-2).squeeze(-1)
+
+    return packed, scale, zero
+
+def unpack_int4(w: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    assert w.dim() == 2 and w.dtype == torch.int32
+    K_half, N = w.shape
+    K = K_half * 2
+    num_groups = K // group_size
+    assert scales.shape[-1] == num_groups
+    assert zeros.shape[-1]  == num_groups
+
+    b0 = (w & 0xF).float()
+    b1 = ((w >> 4) & 0xF).float()
+
+    q = torch.stack([b0, b1], dim=-1).view(K, N)
+    scales = scales.view(-1, 1).repeat(1, group_size).view(-1, 1)
+    zeros  = zeros.view(-1, 1).repeat(1, group_size).view(-1, 1)
+    unpacked = (q - zeros[:K]) * scales[:K]
+    return unpacked.view(K, N).to(torch.float16)
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_219875.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_219875.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_219875.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_219875.py.stdout
new file mode 100644
index 0000000..78ce73c
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_219875.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_219875 due to "bitwise_and_cuda" not implemented for 'Float'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_243114.py b/src/temp/gen/int4_matmul.py_gen_triton_code_243114.py
new file mode 100644
index 0000000..5d9a59e
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_243114.py
@@ -0,0 +1,250 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# int4 de-quant helpers
+@triton.jit
+def _dequantize_int4_unpack(xi32, mask0=0x0f, mask1=0xf0):
+    xi0 = (xi32 & mask0).to(tl.int8)
+    xi1 = ((xi32 & mask1) >> 4).to(tl.int8)
+    return xi0, xi1
+
+
+@triton.jit
+def _dequantize_int4_kernel(ptr, scales_ptr, zeros_ptr, M, N,
+                            stride_q, stride_s, stride_z,
+                            BLOCK_M: tl.constexpr,
+                            BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    q_offsets = (rm[:, None] * stride_q + (rn // 8)[None, :])
+    scales_offsets = (rm[:, None] * stride_s + (rn // 8)[None, :])
+    zeros_offsets = (rm[:, None] * stride_z + (rn // 8)[None, :])
+
+    mask_m = rm < M
+    mask_n = rn < N
+    mask = mask_m[:, None] & mask_n[None, :]
+
+    packed = tl.load(ptr + q_offsets, mask=mask, other=0)
+    s = tl.load(scales_ptr + scales_offsets, mask=mask, other=1.0)
+    z = tl.load(zeros_ptr + zeros_offsets, mask=mask, other=0.0)
+
+    offsets_0 = (rn % 8) * 4
+    offsets_1 = offsets_0 + 4
+    i0, i1 = _dequantize_int4_unpack(packed)
+    v0 = (i0.to(tl.float32) - z) * s
+    v1 = (i1.to(tl.float32) - z) * s
+
+    return v0, v1
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr,
+                  scales_ptr, zeros_ptr,
+                  M, N, K,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_eval_k, stride_eval_n,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  GROUP_SIZE_M: tl.constexpr,
+                  SPLIT_K: tl.constexpr,
+                  EVEN_K: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    pid_k = tl.program_id(2)
+
+    n_blocks_m = tl.cdiv(M, BLOCK_SIZE_M)
+    n_blocks_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    if GROUP_SIZE_M == 1:
+        group_id = 0
+        first_pid_m = 0
+    else:
+        group_id = pid_m // GROUP_SIZE_M
+        first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(n_blocks_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid_m % group_size_m)
+
+    if SPLIT_K > 1:
+        local_k = tl.cdiv(K, SPLIT_K)
+        k_offset = pid_k * local_k
+    else:
+        local_k = K
+        k_offset = 0
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = k_offset + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    scales_ptrs = scales_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+    zeros_ptrs = zeros_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, local_k, BLOCK_SIZE_K):
+        if EVEN_K or (k + BLOCK_SIZE_K <= local_k):
+            a = tl.load(a_ptrs, mask=offs_k[None, :] < local_k - k, other=0.0, eviction_policy="evict_last")
+            block_scale = tl.load(scales_ptrs, mask=offs_k[:, None] < local_k - k, other=1.0)
+            block_zero = tl.load(zeros_ptrs, mask=offs_k[:, None] < local_k - k, other=0.0)
+
+            packed_b = tl.load(b_ptrs, mask=offs_k[:, None] < local_k - k, other=0)
+            k_idx = (offs_k[:, None] % 8) * 4
+            val_low = (packed_b & 0x0F).to(tl.int8).to(tl.float32)
+            val_high = ((packed_b >> 4) & 0x0F).to(tl.int8).to(tl.float32)
+            b_low = (val_low - block_zero) * block_scale
+            b_high = (val_high - block_zero) * block_scale
+
+            acc = tl.dot(a, b_low, acc)
+            a_shift = tl.load(a_ptrs + stride_bk * (1 if EVEN_K else 8), mask=offs_k[None, :] + 8 < local_k - k, other=0.0, eviction_policy="evict_last")
+            acc = tl.dot(a_shift, b_high, acc)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K // 8) * stride_bk
+        scales_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+        zeros_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+
+    if SPLIT_K == 1:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.store(c_ptrs, acc.to(c_ptrs.type.element_ty), mask=c_mask)
+    else:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :] + pid_k * M * N
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.atomic_add(c_ptrs, acc, mask=c_mask)
+
+
+def matmul_dequantize_int4_s2(a, int4b_compressed, scales, zeros, M, N, K):
+    c_dtype = a.dtype
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 128
+    BLOCK_SIZE_K = 32
+    SPLIT_K = 1
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']),
+                         triton.cdiv(N, META['BLOCK_SIZE_N']),
+                         SPLIT_K)
+
+    if SPLIT_K > 1:
+        c = torch.empty((SPLIT_K, M, N), dtype=torch.float32, device=a.device)
+    else:
+        c = torch.empty((M, N), dtype=c_dtype, device=a.device)
+
+    EVEN_K = K % 32 == 0
+
+    matmul_kernel[grid](a, int4b_compressed, c,
+                        scales, zeros,
+                        M, N, K,
+                        a.stride(0), a.stride(1),
+                        int4b_compressed.stride(0), int4b_compressed.stride(1),
+                        c.stride(0) if c.dim() == 2 else c.stride(1),
+                        c.stride(1) if c.dim() == 2 else c.stride(2),
+                        scales.stride(0), scales.stride(1),
+                        BLOCK_SIZE_M=BLOCK_SIZE_M,
+                        BLOCK_SIZE_N=BLOCK_SIZE_N,
+                        BLOCK_SIZE_K=BLOCK_SIZE_K,
+                        GROUP_SIZE_M=8,
+                        SPLIT_K=SPLIT_K,
+                        EVEN_K=EVEN_K)
+    return c if SPLIT_K == 1 else c.sum(dim=0)
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    org_shape = x.shape
+    x = x.view(-1, group_size)
+    x_fp32 = x.float()
+    x_min = x_fp32.amin(dim=-1, keepdim=True)
+    x_max = x_fp32.amax(dim=-1, keepdim=True)
+    scale = (x_max - x_min) / 15.0
+    zero = (-x_min / scale + 0.5).clamp(0, 15)
+
+    int4 = (((x_fp32 - x_min) / scale + 0.5).clamp(0, 15)).round().to(torch.int8)
+
+    int4 = int4.view(-1)
+    packed = torch.zeros(x.size(0), x.size(1) // 2, dtype=torch.int32, device=x.device)
+    int4_even = int4[::2].to(torch.int32)
+    int4_odd = int4[1::2].to(torch.int32)
+    packed = int4_even | (int4_odd << 4)
+    packed = packed.view(org_shape[0], org_shape[1] // 2)
+    scale = scale.squeeze(-1)
+    zero = zero.squeeze(-1)
+    return packed, scale, zero
+
+
+def unpack_int4(packed: torch.Tensor, scale: torch.Tensor, zero: torch.Tensor, group_size: int = 128):
+    M, Nhalf = packed.shape
+    N = Nhalf * 2
+    unpacked = torch.empty(M, N, dtype=torch.float16, device=packed.device)
+
+    packed = packed.int()
+    for i in range(M):
+        for j in range(Nhalf):
+            low = (packed[i, j] & 0x0F).to(torch.float32)
+            high = ((packed[i, j] >> 4) & 0x0F).to(torch.float32)
+            group_idx = j * 2 // group_size
+            val_low = (low - zero[i, group_idx]) * scale[i, group_idx]
+            val_high = (high - zero[i, group_idx]) * scale[i, group_idx]
+            unpacked[i, 2 * j] = val_low.to(torch.float16)
+            unpacked[i, 2 * j + 1] = val_high.to(torch.float16)
+    return unpacked
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_243114.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_243114.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_243114.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_243114.py.stdout
new file mode 100644
index 0000000..b72ae4e
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_243114.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_243114 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_291697.py b/src/temp/gen/int4_matmul.py_gen_triton_code_291697.py
new file mode 100644
index 0000000..c557c58
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_291697.py
@@ -0,0 +1,257 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# =========================
+# Triton kernel (batched INT4 matrix multiply)
+# =========================
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 128, 'GROUP_SIZE_M': 16, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 128, 'GROUP_SIZE_M': 16, 'SPLIT_K': 2}, num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr,
+                  scales_ptr, zeros_ptr,
+                  M, N, K,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_bsk, stride_bsn,
+                  stride_bzpk, stride_bzpn,
+                  group_size,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  GROUP_SIZE_M: tl.constexpr,
+                  SPLIT_K: tl.constexpr):
+    pid0 = tl.program_id(axis=0)
+    pid_k = tl.program_id(axis=1)       # only meaningful when SPLIT_K > 1
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid0 // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid0 % group_size_m)
+    pid_n = (pid0 % num_pid_in_group) // group_size_m
+
+    # block row/col indices
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    k_step = BLOCK_SIZE_K * SPLIT_K
+    k_lo = pid_k * BLOCK_SIZE_K
+    offs_k_block = k_lo + tl.arange(0, BLOCK_SIZE_K)
+
+    # pointers
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_am + offs_k_block[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k_block[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn)
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, k_step)):
+        cur_k = offs_k_block + k * k_step
+        mask_k = cur_k[None, :] < K
+        mask_n = offs_n[None, :] < N
+
+        a = tl.load(a_ptrs, mask=mask_k & (offs_m[:, None] < M), other=0.0)
+
+        packed_b = tl.load(b_ptrs, mask=mask_k & mask_n, other=0)
+
+        # group indices
+        gidx = cur_k[None, :] // group_size
+
+        scales = tl.load(scales_ptr +
+                         gidx * stride_bsk +
+                         offs_n[None, :] * stride_bsn, mask=mask_k & mask_n, other=0.0)
+
+        zeros_packed = tl.load(zeros_ptr +
+                               gidx * stride_bzpk +
+                               (offs_n[None, :] // 8) * stride_bzpn,
+                               mask=mask_k & mask_n, other=0)
+        zeros_packed = zeros_packed.to(tl.int32)
+
+        shift = (cur_k[None, :] % 8) * 4
+        zp_shift = (offs_n[None, :] % 8) * 4
+
+        int_b = (packed_b >> shift) & 0xF
+        int_zp = (zeros_packed >> zp_shift) & 0xF
+        b = ((int_b.to(tl.float32) - int_zp.to(tl.float32)) * scales)
+        acc += tl.dot(a, b)
+
+        a_ptrs += k_step * stride_ak
+        b_ptrs += (k_step // 8) * stride_bk
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, acc, mask=mask_c)
+    else:
+        tl.atomic_add(c_ptrs, acc, mask=mask_c)
+
+# =========================
+# Front-end helpers
+# =========================
+
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    """
+    Quantize weights to INT4, packing 8 INT4 values per int32 row.
+    Returns (qweight, scales, zeros) where
+      - qweight: [Kw, N] int32，Kw = ceil_div(K, 8)
+      - scales:  [num_groups, N] float
+      - zeros:   [num_groups, N] int32 after packing (8 zeros per int32)
+    """
+    assert weights.dim() == 2
+    K, N = weights.shape
+    assert K % group_size == 0
+
+    num_groups = K // group_size
+    w_groups = weights.view(num_groups, group_size, N)          # [G, Gsz, N]
+    w_min, w_max = w_groups.aminmax(dim=1)                      # [G, N]
+    scale = (w_max - w_min) / 15.0
+    scale = torch.where(scale == 0, torch.tensor(1.0, device=scale.device), scale)
+    zero = (-w_min / scale)
+    q = ((w_groups / scale.unsqueeze(1) + zero.unsqueeze(1) + 0.5).floor()).clamp(0, 15).to(torch.int32)
+
+    q = q.view(K, N)                                            # [K, N]
+    q_low = q[0::2]
+    q_high = q[1::2]
+    # pack into int32: [Kw, N]
+    packed = (q_low & 0xF) | ((q_high & 0xF) << 4)
+
+    # pack zeros similarly
+    zero_int = zero.round().int().clip(0, 15)
+    zero_low  = zero_int[..., 0::2]
+    zero_high = zero_int[..., 1::2]
+    zeros_packed = (zero_low & 0xF) | ((zero_high & 0xF) << 4)
+
+    return packed, scale, zeros_packed
+
+
+def unpack_int4(w, scales, zeros, group_size: int = 128):
+    """
+    De-quantize w for numeric validation.
+    w: [Kw, N] int32, scales: [num_groups, N], zeros: [num_groups, N] int32
+    returns float dequantized weight [K, N]
+    """
+    Kw, N = w.shape
+    K = Kw * 8
+    num_groups = K // group_size
+    assert num_groups == scales.shape[0]
+
+    # unstitch
+    w0 = (w & 0xF).to(torch.float32)
+    w1 = ((w >> 4) & 0xF).to(torch.float32)
+    deq = torch.empty((K, N), device=w.device, dtype=w0.dtype)
+    deq[0::8] = w0[::2, :]
+    deq[1::8] = w1[::2, :]
+    deq[2::8] = (w0[1::2, :] if w0.shape[0] > 1 else w0[0:1, :])
+    deq[3::8] = (w1[1::2, :] if w1.shape[0] > 1 else w0[0:1, :])
+    # Because each int32 stores 8 int4 weights in four successive rows,
+    # split again correctly to rows [2,3] [4,5] [6,7]
+    idx = torch.arange(K, device=w.device)[:, None]
+    block = idx // 8
+    offset_in_block = idx % 8
+    gather = ((w[block, :] >> (4 * offset_in_block)) & 0xF).to(torch.float32)
+    deq_correct = gather.view(K, N)
+
+    # broadcast scales and zeros
+    scales = scales.view(num_groups, 1, N).expand(num_groups, group_size, N).reshape(K, N)
+    zeros  = zeros.view(num_groups, 1, N).expand(num_groups, group_size, N).reshape(K, N)
+    return deq_correct * scales + zeros
+
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor,
+                              qweight: torch.IntTensor,
+                              scales: torch.FloatTensor,
+                              zeros: torch.FloatTensor,
+                              group_size: int = 128) -> torch.FloatTensor:
+    assert x.is_contiguous()
+    assert qweight.is_contiguous()
+    M, K = x.shape
+    Kw, N = qweight.shape
+    assert Kw == K // 8
+
+    output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, zeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        zeros.stride(0), zeros.stride(1),
+        group_size,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_291697.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_291697.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_291697.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_291697.py.stdout
new file mode 100644
index 0000000..a1fff73
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_291697.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_291697 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_298484.py b/src/temp/gen/int4_matmul.py_gen_triton_code_298484.py
new file mode 100644
index 0000000..c50a853
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_298484.py
@@ -0,0 +1,290 @@
+
+import torch
+import triton
+import triton.language as tl
+
+configs_matmul = [
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+]
+
+@triton.autotune(
+    configs=configs_matmul,
+    key=["M", "N", "K"],
+    use_cuda_graph=False
+)
+@triton.jit
+def matmul_kernel(
+    A, B, C, scales, zeros,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g0, stride_zeros_n,
+    groupsize,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr = 1,
+    GROUP_SIZE_M: tl.constexpr = 8
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = A + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = B + ((offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_pos = k * BLOCK_SIZE_K * SPLIT_K + offs_k
+        g_idx = (k_pos) // groupsize
+
+        mask_k = k_pos < K
+        a = tl.load(a_ptrs, mask=mask_k[None, :], other=0.0)
+
+        offset_b = (k_pos[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+        b_chunk = tl.load(B + offset_b, mask=mask_k[:, None], other=0)
+
+        scale_offset = g_idx[:, None] * stride_scales_g + offs_n[None, :] * stride_scales_n
+        scale_val = tl.load(scales + scale_offset, mask=mask_k[:, None], other=0.0)
+
+        zp_val = tl.load(zeros + g_idx[:, None] * stride_zeros_g0 + (offs_n // 8)[None, :] * stride_zeros_n, mask=mask_k[:, None], other=0.0)
+        shift_n = (offs_n % 8)[None, :] * 4
+        inv_zp = ((zp_val >> shift_n) & 0xF) * scale_val
+
+        shift_k = (k_pos % 8)[:, None] * 4
+        w_int = (b_chunk >> shift_k) & 0xF
+        w_fp = (w_int * scale_val - inv_zp)
+
+        accumulator += tl.dot(a, w_fp)
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+
+    c = accumulator
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_cm = offs_cm < M
+    mask_cn = offs_cn < N
+    c_ptrs = C + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = mask_cm[:, None] & mask_cn[None, :]
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor, qzeros: torch.IntTensor, group_size: int = 128, output=None) -> torch.FloatTensor:
+    assert x.is_contiguous(), "A must be contiguous"
+    Kx, N = qweight.shape
+    K = Kx * 8
+    M = x.shape[0]
+    assert x.shape[1] == K, f"A second dim {x.shape[1]} must equal weight rows {K}"
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    else:
+        assert output.shape == (M, N), "output shape must be (M, N)"
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        max(META.get('SPLIT_K', 1), 1),
+    )
+    num_groups = max(1, K // group_size)
+    second_dim = 1 if N <= 8 else (N + 7) // 8
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return output
+
+configs_dequant = [
+    triton.Config({'BLOCK_SIZE_K': 32, 'BLOCK_SIZE_N': 128}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 128}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 32, 'BLOCK_SIZE_N': 64}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 64}, num_stages=2, num_warps=4),
+]
+
+@triton.autotune(
+    configs=configs_dequant,
+    key=["K", "N"],
+    use_cuda_graph=False
+)
+@triton.jit
+def dequantize_kernel(
+    qw_ptr, sc_ptr, zp_ptr, fpw_ptr,
+    K, N, group_size,
+    stride_qk, stride_qn,
+    stride_scg, stride_scn,
+    stride_zpg, stride_zpn,
+    stride_fk, stride_fn,
+    BLOCK_SIZE_K: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+):
+    k_blk = tl.program_id(0)
+    n_blk = tl.program_id(1)
+
+    offs_k = k_blk * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    offs_n = n_blk * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_k = offs_k[:, None] < K
+    mask_n = offs_n[None, :] < N
+    mask = mask_k & mask_n
+
+    grp = offs_k[:, None] // group_size
+
+    qw_offs = (offs_k[:, None] // 8) * stride_qk + offs_n[None, :] * stride_qn
+    qw_local = tl.load(qw_ptr + qw_offs, mask=mask, other=0)
+
+    sc_offs = grp * stride_scg + offs_n[None, :] * stride_scn
+    sc_local = tl.load(sc_ptr + sc_offs, mask=mask, other=0.0)
+
+    zp_offs = grp * stride_zpg + (offs_n // 8)[None, :] * stride_zpn
+    zp_quad = tl.load(zp_ptr + zp_offs, mask=mask, other=0)
+
+    bits = 4
+    shift_k = (offs_k % 8)[:, None] * bits
+    shift_n = (offs_n % 8)[None, :] * bits
+
+    qh = (qw_local >> shift_k) & 0xF
+    qz = (zp_quad >> shift_n) & 0xF
+
+    dq_val = (qh - qz) * sc_local
+    tl.store(fpw_ptr + offs_k[:, None] * stride_fk + offs_n[None, :] * stride_fn, dq_val, mask=mask)
+
+def quantize_int4(x: torch.Tensor, groupsize: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    W = x.t().contiguous()
+    K_raw, N = W.shape
+    assert K_raw % groupsize == 0, "K must be divisible by groupsize"
+    groups = K_raw // groupsize
+    W = W.view(groups, groupsize, N)
+    wmin = W.min(dim=1, keepdim=True)[0]
+    wmax = W.max(dim=1, keepdim=True)[0]
+    scale = (wmax - wmin) / 15
+    zero = -wmin / scale
+    zero = torch.round(zero).clamp(0, 15)
+
+    qweight = torch.clamp(torch.round(W / scale + zero), 0, 15)
+    qweight = qweight.to(torch.int8)
+
+    packed = torch.zeros((groups * groupsize) // 8, N, dtype=torch.int32, device=x.device)
+    for col in range(N):
+        w_col = qweight[:, :, col].flatten()
+        for idx in range(0, w_col.size(0), 8):
+            v = w_col[idx:idx+8].view(torch.uint8)
+            v &= 0xF
+            v1 = v[::2] | (v[1::2] << 4)
+            packed[idx//8, col] = v1.view(torch.int32)
+    packed = packed.t()
+    qweight = packed
+
+    scale = scale.squeeze(1).view(groups, N).t()
+    zero = zero.squeeze(1).view(groups, N).t()
+
+    qzeros = torch.zeros_like(zero, dtype=torch.int32)
+    for col in range(N):
+        z_col = zero[:, col]
+        for idx in range(0, groups, 8):
+            seg = z_col[idx: idx+8]
+            tmp = 0
+            for k, val in enumerate(seg):
+                tmp |= (val.int() & 0xF) << (4 * k)
+            qzeros[idx//8, col] = tmp
+
+    return qweight.contiguous(), scale.contiguous(), qzeros.contiguous()
+
+def unpack_int4(
+    packed_weights: torch.Tensor,
+    scales: torch.Tensor,
+    zeros: torch.Tensor,
+    groupsize: int
+) -> torch.Tensor:
+    K_pack, N = packed_weights.shape
+    K = K_pack * 8
+    device = packed_weights.device
+    dtype = scales.dtype
+
+    unpacked = torch.zeros((K, N), dtype=dtype, device=device)
+    for i in range(K_pack):
+        chunk = packed_weights[i, :]
+        for j in range(8):
+            bits = (chunk >> (j * 4)) & 0xF
+            unpacked[i * 8 + j, :] = bits.to(dtype)
+
+    num_groups = K // groupsize
+    scale_ex = scales.t().repeat_interleave(groupsize, dim=0)
+    zeros_ex = zeros.t().repeat_interleave(groupsize, dim=0)
+
+    zeros_unp = torch.zeros((K, N), dtype=dtype, device=device)
+    for i in range(num_groups):
+        z_chunk = zeros.t()[i, :]
+        for j in range(groupsize):
+            for n in range(N):
+                g_group = i * groupsize + j
+                zeros_unp[g_group, n] = z_chunk[n]
+
+    result = (unpacked - zeros_unp) * scale_ex
+    return result.t()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_298484.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_298484.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_298484.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_298484.py.stdout
new file mode 100644
index 0000000..4c5a028
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_298484.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_298484 due to quantize_int4() got an unexpected keyword argument 'group_size'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_308542.py b/src/temp/gen/int4_matmul.py_gen_triton_code_308542.py
new file mode 100644
index 0000000..c278b48
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_308542.py
@@ -0,0 +1,215 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g, stride_zeros_n,
+    GROUP_SIZE: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    pid_k = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = num_pid_m * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * num_pid_m
+    group_size_m = min(num_pid_m, M - first_pid_m * BLOCK_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    if pid_m * BLOCK_SIZE_M >= M or pid_n * BLOCK_SIZE_N >= N:
+        return
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        a_mask = offs_am[:, None] < M and offs_k[None, :] < K
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+
+        offs_k_in_group = offs_k // GROUP_SIZE
+        scales = tl.load(scales_ptr + offs_bn[None, :] * stride_scales_n + offs_k_in_group[:, None] * stride_scales_g)
+        zeros = tl.load(zeros_ptr + offs_bn[None, :] * stride_zeros_n + offs_k_in_group[:, None] * stride_zeros_g)
+
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K and offs_bn[None, :] < N, other=0.0)
+        b = b.to(tl.int32)
+
+        b0 = (b & 0x0F) - 8
+        b1 = ((b >> 4) & 0x0F) - 8
+
+        dequant_b0 = b0.to(tl.float32) * scales + zeros
+        dequant_b1 = b1.to(tl.float32) * scales + zeros
+
+        b_reconstructed = tl.zeros((BLOCK_SIZE_K * 2, BLOCK_SIZE_N), dtype=tl.float32)
+        b_reconstructed = tl.where(tl.arange(0, BLOCK_SIZE_K * 2)[:, None] % 2 == 0,
+                                   dequant_b0[tl.arange(0, BLOCK_SIZE_K)[:, None], :],
+                                   dequant_b1[tl.arange(0, BLOCK_SIZE_K)[:, None], :])
+
+        valid_k = min(BLOCK_SIZE_K * 2, K - k * BLOCK_SIZE_K * 2)
+        a_inner = a[:, :valid_k]
+        b_inner = b_reconstructed[:valid_k, :]
+
+        acc += tl.dot(a_inner, b_inner)
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_bk
+        offs_k += BLOCK_SIZE_K * SPLIT_K
+
+    if SPLIT_K > 1:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+        mask = offs_cm[:, None] < M and offs_cn[None, :] < N
+        tl.atomic_add(c_ptrs, acc, mask=mask)
+    else:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+        mask = offs_cm[:, None] < M and offs_cn[None, :] < N
+        tl.store(c_ptrs, acc, mask=mask)
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    assert x.dim() == 2
+    rows, cols = x.shape
+    assert cols % group_size == 0
+    num_groups = cols // group_size
+
+    x_groups = x.view(rows, num_groups, group_size)
+    x_min = x_groups.min(dim=2, keepdim=True)[0]
+    x_max = x_groups.max(dim=2, keepdim=True)[0]
+    scale = (x_max - x_min) / 15.0
+    zero = -x_min / scale
+
+    x_quantized = ((x_groups - x_min) / scale).round().clamp(0, 15).to(torch.int32) - 8
+    x_quantized_uint = (x_quantized + 8).to(torch.uint8)
+
+    packed = torch.zeros(rows, num_groups, group_size // 2, dtype=torch.int32, device=x.device)
+    for j in range(group_size // 2):
+        idx = j * 2
+        packed[:, :, j] = (
+            (x_quantized_uint[:, :, idx] & 0x0F) |
+            ((x_quantized_uint[:, :, idx + 1] & 0x0F) << 4)
+        )
+
+    scales = scale.squeeze(-1).contiguous()
+    zeros = zero.squeeze(-1).contiguous()
+    return packed.view(rows, num_groups * group_size // 2), scales, zeros
+
+
+def matmul_dequantize_int4_s2(
+    a: torch.Tensor, b_q: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor,
+    group_size: int = 128, split_k: int = 1
+) -> torch.Tensor:
+    assert a.dim() == 2
+    assert b_q.dim() == 2
+    assert scales.dim() == 2
+    assert zeros.dim() == 2
+    assert a.shape[1] == b_q.shape[0] * 2, "Dimension mismatch between A and quantized B"
+    M, K = a.shape
+    N, _ = scales.shape
+
+    c = torch.empty((M, N), dtype=torch.float32, device=a.device)
+    if split_k > 1:
+        c.zero_()
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        split_k,
+    )
+
+    matmul_kernel[grid](
+        a, b_q, c,
+        scales, zeros,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b_q.stride(0), b_q.stride(1),
+        c.stride(0), c.stride(1),
+        scales.stride(0), scales.stride(1),
+        zeros.stride(0), zeros.stride(1),
+        GROUP_SIZE=group_size,
+        BLOCK_SIZE_M=64, BLOCK_SIZE_N=64, BLOCK_SIZE_K=32,
+        SPLIT_K=split_k,
+    )
+    return c
+
+
+def unpack_int4(b_q: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    assert b_q.dim() == 2
+    assert scales.dim() == 2
+    assert zeros.dim() == 2
+    rows, cols_packed = b_q.shape
+    assert cols_packed * 2 == scales.shape[1] * group_size
+
+    cols = cols_packed * 2
+    b_unpacked = torch.zeros(rows, cols, dtype=torch.float32, device=b_q.device)
+
+    scales_expanded = scales.repeat_interleave(group_size, dim=1)
+    zeros_expanded = zeros.repeat_interleave(group_size, dim=1)
+
+    for j in range(cols_packed):
+        packed_col = b_q[:, j]
+        idx = j * 2
+        b_unpacked[:, idx] = ((packed_col & 0x0F).to(torch.float32) - 8) * scales_expanded[:, idx] + zeros_expanded[:, idx]
+        if idx + 1 < cols:
+            b_unpacked[:, idx + 1] = (((packed_col >> 4) & 0x0F).to(torch.float32) - 8) * scales_expanded[:, idx + 1] + zeros_expanded[:, idx + 1]
+
+    return b_unpacked
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_308542.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_308542.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_308542.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_308542.py.stdout
new file mode 100644
index 0000000..006f0d2
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_308542.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_308542 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_312025.py b/src/temp/gen/int4_matmul.py_gen_triton_code_312025.py
new file mode 100644
index 0000000..5d9a59e
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_312025.py
@@ -0,0 +1,250 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# int4 de-quant helpers
+@triton.jit
+def _dequantize_int4_unpack(xi32, mask0=0x0f, mask1=0xf0):
+    xi0 = (xi32 & mask0).to(tl.int8)
+    xi1 = ((xi32 & mask1) >> 4).to(tl.int8)
+    return xi0, xi1
+
+
+@triton.jit
+def _dequantize_int4_kernel(ptr, scales_ptr, zeros_ptr, M, N,
+                            stride_q, stride_s, stride_z,
+                            BLOCK_M: tl.constexpr,
+                            BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    q_offsets = (rm[:, None] * stride_q + (rn // 8)[None, :])
+    scales_offsets = (rm[:, None] * stride_s + (rn // 8)[None, :])
+    zeros_offsets = (rm[:, None] * stride_z + (rn // 8)[None, :])
+
+    mask_m = rm < M
+    mask_n = rn < N
+    mask = mask_m[:, None] & mask_n[None, :]
+
+    packed = tl.load(ptr + q_offsets, mask=mask, other=0)
+    s = tl.load(scales_ptr + scales_offsets, mask=mask, other=1.0)
+    z = tl.load(zeros_ptr + zeros_offsets, mask=mask, other=0.0)
+
+    offsets_0 = (rn % 8) * 4
+    offsets_1 = offsets_0 + 4
+    i0, i1 = _dequantize_int4_unpack(packed)
+    v0 = (i0.to(tl.float32) - z) * s
+    v1 = (i1.to(tl.float32) - z) * s
+
+    return v0, v1
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr,
+                  scales_ptr, zeros_ptr,
+                  M, N, K,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_eval_k, stride_eval_n,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  GROUP_SIZE_M: tl.constexpr,
+                  SPLIT_K: tl.constexpr,
+                  EVEN_K: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    pid_k = tl.program_id(2)
+
+    n_blocks_m = tl.cdiv(M, BLOCK_SIZE_M)
+    n_blocks_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    if GROUP_SIZE_M == 1:
+        group_id = 0
+        first_pid_m = 0
+    else:
+        group_id = pid_m // GROUP_SIZE_M
+        first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(n_blocks_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid_m % group_size_m)
+
+    if SPLIT_K > 1:
+        local_k = tl.cdiv(K, SPLIT_K)
+        k_offset = pid_k * local_k
+    else:
+        local_k = K
+        k_offset = 0
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = k_offset + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    scales_ptrs = scales_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+    zeros_ptrs = zeros_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, local_k, BLOCK_SIZE_K):
+        if EVEN_K or (k + BLOCK_SIZE_K <= local_k):
+            a = tl.load(a_ptrs, mask=offs_k[None, :] < local_k - k, other=0.0, eviction_policy="evict_last")
+            block_scale = tl.load(scales_ptrs, mask=offs_k[:, None] < local_k - k, other=1.0)
+            block_zero = tl.load(zeros_ptrs, mask=offs_k[:, None] < local_k - k, other=0.0)
+
+            packed_b = tl.load(b_ptrs, mask=offs_k[:, None] < local_k - k, other=0)
+            k_idx = (offs_k[:, None] % 8) * 4
+            val_low = (packed_b & 0x0F).to(tl.int8).to(tl.float32)
+            val_high = ((packed_b >> 4) & 0x0F).to(tl.int8).to(tl.float32)
+            b_low = (val_low - block_zero) * block_scale
+            b_high = (val_high - block_zero) * block_scale
+
+            acc = tl.dot(a, b_low, acc)
+            a_shift = tl.load(a_ptrs + stride_bk * (1 if EVEN_K else 8), mask=offs_k[None, :] + 8 < local_k - k, other=0.0, eviction_policy="evict_last")
+            acc = tl.dot(a_shift, b_high, acc)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K // 8) * stride_bk
+        scales_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+        zeros_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+
+    if SPLIT_K == 1:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.store(c_ptrs, acc.to(c_ptrs.type.element_ty), mask=c_mask)
+    else:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :] + pid_k * M * N
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.atomic_add(c_ptrs, acc, mask=c_mask)
+
+
+def matmul_dequantize_int4_s2(a, int4b_compressed, scales, zeros, M, N, K):
+    c_dtype = a.dtype
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 128
+    BLOCK_SIZE_K = 32
+    SPLIT_K = 1
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']),
+                         triton.cdiv(N, META['BLOCK_SIZE_N']),
+                         SPLIT_K)
+
+    if SPLIT_K > 1:
+        c = torch.empty((SPLIT_K, M, N), dtype=torch.float32, device=a.device)
+    else:
+        c = torch.empty((M, N), dtype=c_dtype, device=a.device)
+
+    EVEN_K = K % 32 == 0
+
+    matmul_kernel[grid](a, int4b_compressed, c,
+                        scales, zeros,
+                        M, N, K,
+                        a.stride(0), a.stride(1),
+                        int4b_compressed.stride(0), int4b_compressed.stride(1),
+                        c.stride(0) if c.dim() == 2 else c.stride(1),
+                        c.stride(1) if c.dim() == 2 else c.stride(2),
+                        scales.stride(0), scales.stride(1),
+                        BLOCK_SIZE_M=BLOCK_SIZE_M,
+                        BLOCK_SIZE_N=BLOCK_SIZE_N,
+                        BLOCK_SIZE_K=BLOCK_SIZE_K,
+                        GROUP_SIZE_M=8,
+                        SPLIT_K=SPLIT_K,
+                        EVEN_K=EVEN_K)
+    return c if SPLIT_K == 1 else c.sum(dim=0)
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    org_shape = x.shape
+    x = x.view(-1, group_size)
+    x_fp32 = x.float()
+    x_min = x_fp32.amin(dim=-1, keepdim=True)
+    x_max = x_fp32.amax(dim=-1, keepdim=True)
+    scale = (x_max - x_min) / 15.0
+    zero = (-x_min / scale + 0.5).clamp(0, 15)
+
+    int4 = (((x_fp32 - x_min) / scale + 0.5).clamp(0, 15)).round().to(torch.int8)
+
+    int4 = int4.view(-1)
+    packed = torch.zeros(x.size(0), x.size(1) // 2, dtype=torch.int32, device=x.device)
+    int4_even = int4[::2].to(torch.int32)
+    int4_odd = int4[1::2].to(torch.int32)
+    packed = int4_even | (int4_odd << 4)
+    packed = packed.view(org_shape[0], org_shape[1] // 2)
+    scale = scale.squeeze(-1)
+    zero = zero.squeeze(-1)
+    return packed, scale, zero
+
+
+def unpack_int4(packed: torch.Tensor, scale: torch.Tensor, zero: torch.Tensor, group_size: int = 128):
+    M, Nhalf = packed.shape
+    N = Nhalf * 2
+    unpacked = torch.empty(M, N, dtype=torch.float16, device=packed.device)
+
+    packed = packed.int()
+    for i in range(M):
+        for j in range(Nhalf):
+            low = (packed[i, j] & 0x0F).to(torch.float32)
+            high = ((packed[i, j] >> 4) & 0x0F).to(torch.float32)
+            group_idx = j * 2 // group_size
+            val_low = (low - zero[i, group_idx]) * scale[i, group_idx]
+            val_high = (high - zero[i, group_idx]) * scale[i, group_idx]
+            unpacked[i, 2 * j] = val_low.to(torch.float16)
+            unpacked[i, 2 * j + 1] = val_high.to(torch.float16)
+    return unpacked
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_312025.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_312025.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_312025.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_312025.py.stdout
new file mode 100644
index 0000000..a2a64f3
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_312025.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_312025 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_357204.py b/src/temp/gen/int4_matmul.py_gen_triton_code_357204.py
new file mode 100644
index 0000000..ed8a9dd
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_357204.py
@@ -0,0 +1,226 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# ------------------------------------------------------------------
+# INT4 matmul kernel (tiling: M tile, N tile, K tile, SPLIT-K capable)
+# ------------------------------------------------------------------
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64,
+                       'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32,
+                       'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32,
+                       'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(
+    x_ptr, qw_ptr, sc_ptr, zp_ptr, o_ptr,
+    M, N, K,
+    stride_xm, stride_xk,
+    stride_qwk, stride_qwn,
+    stride_scg, stride_scn,
+    stride_zpg, stride_zpn,
+    stride_om, stride_on,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr = 1,
+):
+    pid   = tl.program_id(axis=0)
+    pid_k = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_k * BLOCK_SIZE_K * SPLIT_K + tl.arange(0, BLOCK_SIZE_K * SPLIT_K)
+
+    mask_k = offs_k < K
+    mask_m = offs_m < M
+    mask_n = offs_n < N
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in tl.range(0, K, BLOCK_SIZE_K * SPLIT_K):
+        current_offs_k = k + tl.arange(0, BLOCK_SIZE_K * SPLIT_K)
+        mask_kk = current_offs_k < K
+
+        x_ptrs = x_ptr + (offs_m[:, None] * stride_xm +
+                          current_offs_k[None, :] * stride_xk)
+        x_blk = tl.load(x_ptrs, mask=mask_m[:, None] & mask_kk[None, :], other=0.0)
+
+        qw_ptrs = qw_ptr + ((current_offs_k[None, :] // 8) * stride_qwk +
+                            offs_n[:, None] * stride_qwn)
+        qw_blk = tl.load(qw_ptrs, mask=mask_kk[None, :] & mask_n[:, None], other=0)
+
+        grp_idx = (current_offs_k // group_size)
+        sc_ptrs = sc_ptr + grp_idx * stride_scg + offs_n[None, :] * stride_scn
+        sc_blk = tl.load(sc_ptrs, mask=mask_n[None, :], other=0.0)
+
+        zp_ptrs = zp_ptr + grp_idx * stride_zpg + (offs_n[None, :] // 8) * stride_zpn
+        zp_blk = tl.load(zp_ptrs, mask=mask_n[None, :], other=0.0)
+
+        shifts = (current_offs_k % 8) * 4
+        int4s = (qw_blk >> shifts[None, :]) & 0xF
+        zp_shifts = (offs_n[None, :] % 8) * 4
+        zp_int4 = (zp_blk >> zp_shifts) & 0xF
+        fp_blk = (int4s.to(tl.float32) - zp_int4.to(tl.float32)) * sc_blk.to(tl.float32)
+
+        acc += tl.dot(x_blk.to(tl.float16), fp_blk.to(tl.float16)).to(tl.float32)
+
+    c_ptrs = o_ptr + offs_m[:, None] * stride_om + offs_n[None, :] * stride_on
+    mask_mn = mask_m[:, None] & mask_n[None, :]
+    if SPLIT_K > 1:
+        tl.atomic_add(c_ptrs, acc, mask=mask_mn)
+    else:
+        tl.store(c_ptrs, acc.astype(tl.float16), mask=mask_mn)
+
+
+# ------------------------------------------------------------------
+# Wrapper for tensor-packed int4 inference
+# ------------------------------------------------------------------
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    scale: torch.Tensor,
+    zero_point: torch.Tensor,
+    group_size: int = 128,
+) -> torch.Tensor:
+    assert x.dim() == 2
+    assert qweight.dim() == 2
+    assert scale.dim() == 2
+    assert zero_point.dim() == 2
+    M, K = x.shape
+    K8, N = qweight.shape
+    assert K == K8 * 8
+    assert group_size > 0
+    x = x.contiguous()
+    output = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    matmul_kernel[
+        lambda META: (
+            triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+            1,
+        )
+    ](
+        x, qweight, scale, zero_point, output,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        scale.stride(0), scale.stride(1),
+        zero_point.stride(0), zero_point.stride(1),
+        output.stride(0), output.stride(1),
+        group_size,
+    )
+    return output
+
+
+# ------------------------------------------------------------------
+# Quantization helpers
+# ------------------------------------------------------------------
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    """
+    Returns 3 tensors:
+      packed_quant (int32), scale (float), zero_point (float)
+    """
+    orig_shape = x.shape
+    x = x.view(-1, orig_shape[-1])
+    K, N = x.shape
+
+    if K % group_size:
+        K_pad = (K + group_size - 1) // group_size * group_size
+        x = torch.nn.functional.pad(x, (0, 0, 0, K_pad - K))
+    else:
+        K_pad = K
+
+    x = x.view(-1, group_size)
+    x_min = x.min(dim=-1, keepdim=True)[0]
+    x_max = x.max(dim=-1, keepdim=True)[0]
+    x_max = torch.max(x_max, x_min + 1e-7)
+    scale = (x_max - x_min) / 15.0
+    zero_point = torch.round(-x_min / scale)
+
+    q = torch.clamp(torch.round(x / scale + zero_point), 0, 15).to(torch.int32)
+
+    q_f = q.view(K_pad, N)
+    int32_q = torch.zeros((K_pad // 8, N), dtype=torch.int32, device=x.device)
+    for shift in range(8):
+        int32_q |= q_f[shift::8, :] << (shift * 4)
+
+    int32_q = int32_q.view(*orig_shape[:-1], N // 8)
+    scale = scale.view(orig_shape[0] // group_size, orig_shape[-1])
+    zero_point = zero_point.view(orig_shape[0] // group_size, orig_shape[-1])
+
+    return int32_q, scale, zero_point
+
+
+def unpack_int4(packed: torch.Tensor, scale: torch.Tensor, zero_point: torch.Tensor, group_size: int = 128):
+    """
+    Decompress back to fp32 for testing.
+    """
+    K8, N = packed.shape
+    K = K8 * 8
+    fp = torch.zeros((K, N), dtype=torch.float32, device=packed.device)
+    for shift in range(8):
+        fp[shift::8, :] = (packed >> (shift * 4)) & 0xF
+    fp = fp.view(-1, N)
+    scale_rs = scale.view(-1, N)
+    zp_rs = zero_point.view(-1, N)
+    fp = fp.to(torch.float32)
+    scale_rs = scale_rs.to(torch.float32)
+    zp_rs = zp_rs.to(torch.float32)
+    fp = (fp - zp_rs) * scale_rs
+    return fp.view(K, N)
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_357204.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_357204.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_357204.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_357204.py.stdout
new file mode 100644
index 0000000..3742e80
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_357204.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_357204 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_365790.py b/src/temp/gen/int4_matmul.py_gen_triton_code_365790.py
new file mode 100644
index 0000000..b38c1f3
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_365790.py
@@ -0,0 +1,177 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({
+            'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1
+        }, num_stages=2, num_warps=4),
+        triton.Config({
+            'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1
+        }, num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g, stride_zeros_n,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    pid_k = tl.program_id(1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    BLOCK_K_S = BLOCK_SIZE_K * SPLIT_K
+    offs_k = pid_k * BLOCK_K_S + tl.arange(0, BLOCK_K_S)
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k[:, None] // 8) * stride_bk + offs_bn[None, :] * stride_bn)
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_K_S)):
+        k_offs = k * BLOCK_K_S + offs_k[None, :]
+        a_mask = (offs_am[:, None] < M) & (k_offs < K)
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+        b = tl.load(b_ptrs, mask=(offs_k[:, None] < K) & (offs_bn[None, :] < N), other=0)
+        g_idx = ( offs_k[:, None] // group_size )
+        scales = tl.load(scales_ptr + g_idx * stride_scales_g + offs_bn[None, :] * stride_scales_n)
+        zeros  = tl.load(zeros_ptr  + g_idx * stride_zeros_g  + (offs_bn[None, :] // 8) * stride_zeros_n)
+        shift  = (offs_k[:, None] % 8) * 4
+        zp_shift = (offs_bn[None, :] % 8) * 4
+        b_vals = (b >> shift) & 0xF
+        b_zp   = (zeros >> zp_shift) & 0xF
+        b_fp = (b_vals - b_zp) * scales
+        acc += tl.dot(a.to(tl.float16), b_fp.to(tl.float16))
+        a_ptrs += BLOCK_K_S * stride_ak
+        b_ptrs += (BLOCK_K_S // 8) * stride_bk
+    c = acc.to(tl.float16)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+
+def quantize_int4(w: torch.Tensor, group_size: int = 128):
+    assert w.dim() == 2
+    K_, N = w.shape
+    assert K_ % group_size == 0
+    K = K_
+    w = w.view(-1, group_size, N)
+    wmin = torch.amin(w, dim=1, keepdim=True)
+    wmax = torch.amax(w, dim=1, keepdim=True)
+    scale = (wmax - wmin) / 15.
+    zero  = (-wmin / scale).round().clamp(0, 15).to(torch.int32)
+    q = (w / scale + zero).round().clamp(0, 15).to(torch.int32)
+    q = q.to(torch.uint8)
+    packed = (q[::2, :, :] | (q[1::2, :, :] << 4)).view(-1, N)
+    scales = scale.squeeze(1).contiguous()
+    zeros  = zero.squeeze(1).contiguous()
+    return packed, scales, zeros, None
+
+
+def matmul_dequantize_int4_s2(
+    x: torch.FloatTensor, qweight: torch.IntTensor,
+    scales: torch.FloatTensor, qzeros: torch.IntTensor,
+    group_size: int = 128, output=None
+) -> torch.FloatTensor:
+    assert x.is_contiguous()
+    M, K = x.shape
+    Kw, N = qweight.shape
+    assert K == Kw * 8
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=torch.float16)
+    else:
+        output.fill_(0.0)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size
+    )
+    return output
+
+
+def unpack_int4(b_packed: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    b_packed = b_packed.contiguous()
+    Kw, N = b_packed.shape
+    K = Kw * 8
+    b_uint = torch.zeros((K, N), dtype=torch.uint8, device=b_packed.device)
+    b_uint[0::2, :] = b_packed & 0xF
+    b_uint[1::2, :] = (b_packed >> 4) & 0xF
+    group_idx = torch.arange(K, device=b_packed.device) // group_size
+    scl = scales[group_idx, :]
+    z   = zeros[group_idx, :]  # shape (K, N)
+    z = ((z.view(-1, 1, N) >> (4 * torch.arange(N//8, device=b_packed.device)[None, :, None])) & 0xF).view(z.shape[0], -1)[:, :N]
+    b_fp = (b_uint.to(torch.float32) - z) * scl
+    return b_fp
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_365790.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_365790.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_365790.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_365790.py.stdout
new file mode 100644
index 0000000..35b2353
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_365790.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_365790 due to 
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_41463.py b/src/temp/gen/int4_matmul.py_gen_triton_code_41463.py
new file mode 100644
index 0000000..79b0377
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_41463.py
@@ -0,0 +1,313 @@
+
+import torch
+import triton
+import triton.language as tl
+
+configs_matmul = [
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+]
+
+@triton.autotune(
+    configs=configs_matmul,
+    key=["M", "N", "K"],
+    use_cuda_graph=False
+)
+@triton.jit
+def matmul_kernel(
+    A, B, C, scales, zeros,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g0, stride_zeros_n,
+    groupsize,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr = 1,
+    GROUP_SIZE_M: tl.constexpr = 8
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_k = tl.cdiv(K, BLOCK_SIZE_K)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = A + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = B + ((offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_pos = k * BLOCK_SIZE_K * SPLIT_K + offs_k
+        g_idx = (k_pos) // groupsize
+
+        mask_k = k_pos < K
+        a = tl.load(a_ptrs, mask=mask_k[None, :], other=0.0)
+
+        offset_b = (k_pos[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+        b_chunk = tl.load(B + offset_b, mask=mask_k[:, None], other=0)
+
+        scale_offset = g_idx[:, None] * stride_scales_g + offs_n[None, :] * stride_scales_n
+        scale_val = tl.load(scales + scale_offset, mask=mask_k[:, None], other=0.0)
+
+        zp_val = tl.load(zeros + g_idx[:, None] * stride_zeros_g0 + (offs_n // 8)[None, :] * stride_zeros_n, mask=mask_k[:, None], other=0.0)
+        shift_n = (offs_n % 8)[None, :] * 4
+        inv_zp = ((zp_val >> shift_n) & 0xF) * scale_val
+
+        shift_k = (k_pos % 8)[:, None] * 4
+        w_int = (b_chunk >> shift_k) & 0xF
+        w_fp = (w_int * scale_val - inv_zp)
+
+        accumulator += tl.dot(a, w_fp)
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+
+    c = accumulator
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_cm = offs_cm < M
+    mask_cn = offs_cn < N
+    c_ptrs = C + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = mask_cm[:, None] & mask_cn[None, :]
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor, qzeros: torch.IntTensor, group_size: int = 128, output=None) -> torch.FloatTensor:
+    assert x.is_contiguous(), "A must be contiguous"
+    assert qweight.is_contiguous(), "B must be contiguous"
+    M, K = x.shape
+    Kw, N = qweight.shape
+    K_expected = Kw * 8
+    assert K == K_expected, f"Expected K = {K_expected}, got {K}"
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    else:
+        output.fill_(0)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        max(META.get('SPLIT_K', 1), 1),
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return output
+
+configs_dequant = [
+    triton.Config({'BLOCK_SIZE_K': 32, 'BLOCK_SIZE_N': 128}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 128}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 32, 'BLOCK_SIZE_N': 64}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 64}, num_stages=2, num_warps=4),
+]
+
+@triton.autotune(
+    configs=configs_dequant,
+    key=["K", "N"],
+    use_cuda_graph=False
+)
+@triton.jit
+def dequantize_kernel(
+    qw_ptr, sc_ptr, zp_ptr, fpw_ptr,
+    K, N, groupsize,
+    stride_qk, stride_qn,
+    stride_scg, stride_scn,
+    stride_zpg, stride_zpn,
+    stride_fk, stride_fn,
+    BLOCK_SIZE_K: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+):
+    k_blk = tl.program_id(0)
+    n_blk = tl.program_id(1)
+
+    offs_k = k_blk * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    offs_n = n_blk * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_k = offs_k[:, None] < K
+    mask_n = offs_n[None, :] < N
+    mask = mask_k & mask_n
+
+    grp = offs_k[:, None] // groupsize
+
+    qw_offs = (offs_k[:, None] // 8) * stride_qk + offs_n[None, :] * stride_qn
+    qw_local = tl.load(qw_ptr + qw_offs, mask=mask, other=0)
+
+    sc_offs = grp * stride_scg + offs_n[None, :] * stride_scn
+    sc_local = tl.load(sc_ptr + sc_offs, mask=mask, other=0.0)
+
+    zp_offs = grp * stride_zpg + (offs_n // 8)[None, :] * stride_zpn
+    zp_quad = tl.load(zp_ptr + zp_offs, mask=mask, other=0)
+
+    shift_k = (offs_k % 8)[:, None] * 4
+    shift_n = (offs_n % 8)[None, :] * 4
+
+    qh = (qw_local >> shift_k) & 0xF
+    qz = (zp_quad >> shift_n) & 0xF
+
+    dq_val = (qh - qz) * sc_local
+    tl.store(fpw_ptr + offs_k[:, None] * stride_fk + offs_n[None, :] * stride_fn, dq_val, mask=mask)
+
+def dequantize_int4(b: torch.Tensor, b_scale: torch.Tensor, b_zero_point: torch.Tensor, device, dtype, groupsize):
+    K_pack, N = b.shape
+    K = K_pack * 8
+    fp_b = torch.empty((K, N), device=device, dtype=dtype)
+    grid = lambda META: (
+        triton.cdiv(K, META['BLOCK_SIZE_K']),
+        triton.cdiv(N, META['BLOCK_SIZE_N']),
+    )
+    dequantize_kernel[grid](
+        b, b_scale, b_zero_point, fp_b,
+        K, N, groupsize,
+        b.stride(0), b.stride(1),
+        b_scale.stride(0), b_scale.stride(1),
+        b_zero_point.stride(0), b_zero_point.stride(1),
+        fp_b.stride(0), fp_b.stride(1)
+    )
+    return fp_b
+
+def matmul_dequantize_int4_s1(a, b, b_scale, b_zero_point, groupsize=128, out=None):
+    assert a.is_contiguous(), "Matrix A must be contiguous"
+    M, K = a.shape
+    Kw, N = b.shape
+    if out is None:
+        out = torch.empty((M, N), device=a.device, dtype=a.dtype)
+    fp_b = dequantize_int4(b, b_scale, b_zero_point, a.device, a.dtype, groupsize)
+    torch.mm(a, fp_b, out=out)
+    fp_b = None
+    return out
+
+def quantize_int4(x: torch.Tensor, groupsize: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    W = x.t().contiguous()
+    K_raw, N = W.shape
+    assert K_raw % groupsize == 0, "K must be divisible by groupsize"
+    groups = K_raw // groupsize
+    W = W.view(groups, groupsize, N)
+    wmin = W.min(dim=1, keepdim=True)[0]
+    wmax = W.max(dim=1, keepdim=True)[0]
+    scale = (wmax - wmin) / 15
+    zero = -wmin / scale
+    zero = torch.round(zero).clamp(0, 15)
+
+    qweight_t = torch.clamp(torch.round(W / scale + zero), 0, 15).to(torch.int8)
+
+    packed = torch.zeros((groups * groupsize) // 8, N, dtype=torch.int32, device=x.device)
+    for col in range(N):
+        w_col = qweight_t[:, :, col].flatten()
+        for idx in range(0, w_col.size(0), 8):
+            vals = w_col[idx:idx+8]
+            val = 0
+            for v in vals:
+                val = (val << 4) | (v.int() & 0xF)
+            packed[idx//8, col] = val
+    qweight = packed.t().contiguous()
+
+    scale = scale.squeeze(1).transpose(0, 1).contiguous()
+    zero = zero.squeeze(1).transpose(0, 1).contiguous()
+
+    qzeros = torch.empty_like(zero, dtype=torch.int32)
+    for col in range(N):
+        for row in range(groups):
+            val = zero[row, col].int() & 0xF
+            qzeros[row, col] = val
+    qzeros = qzeros.transpose(0, 1).contiguous().view(groups, N // 8, 8).transpose(1,2)
+    zsplit = torch.zeros((groups, N//8), dtype=torch.int32, device=x.device)
+    idx = 0
+    for row in range(groups):
+        for col in range(N//8):
+            acc = 0
+            for k in range(8):
+                acc |= (zero[row, col*8 + k].int() & 0xF) << (k * 4)
+            zsplit[row, col] = acc
+    qzeros = zsplit.transpose(0,1).contiguous()
+    scale = scale.transpose(0,1).contiguous()
+
+    return qweight, scale, qzeros
+
+def unpack_int4(packed_weights: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, groupsize: int) -> torch.Tensor:
+    K_pack, N = packed_weights.shape
+    K = K_pack * 8
+    device = packed_weights.device
+    dtype = scales.dtype
+
+    unpacked = torch.zeros((K, N), dtype=dtype, device=device)
+    for col in range(N):
+        chunk = packed_weights[:, col]
+        for i in range(K_pack):
+            val = chunk[i].int()
+            for j in range(8):
+                bits = (val >> (j * 4)) & 0xF
+                unpacked[i * 8 + j, col] = float(bits)
+
+    num_groups = K // groupsize
+    scale_expanded = scales.t().repeat_interleave(groupsize, dim=0)
+    zero_expanded = zeros.t().repeat_interleave(groupsize, dim=0)
+
+    result = (unpacked - zero_expanded) * scale_expanded
+    return result.t()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_41463.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_41463.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_41463.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_41463.py.stdout
new file mode 100644
index 0000000..414d183
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_41463.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_41463 due to quantize_int4() got an unexpected keyword argument 'group_size'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py b/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py
new file mode 100644
index 0000000..25649ef
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py
@@ -0,0 +1,252 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32,  'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 128, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 32,  'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 256, 'GROUP_SIZE_M': 16}, num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    pid_sp_k = tl.program_id(axis=1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m    
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_sp_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_bn[None, :] * stride_bn
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_idx = k * BLOCK_SIZE_K * SPLIT_K + offs_k[None, :]
+        g_idx = k_idx // group_size
+        bs_ptrs = bs_ptr + g_idx * stride_bsk + offs_bn[None, :] * stride_bsn
+        bzp_ptrs = bzp_ptr + g_idx * stride_bzpk + (offs_bn[None, :] // 8) * stride_bzpn
+        a = tl.load(a_ptrs)
+        b = tl.load(b_ptrs)
+        bs = tl.load(bs_ptrs, mask=offs_bn[None, :] < N, other=0.0)
+        bzp = tl.load(bzp_ptrs, mask=offs_bn[None, :] < N, other=0)
+        b_shift = (offs_k[:, None] % 8) * 4
+        z_shift = (offs_n[None, :] % 8) * 4
+        b_q = (b >> b_shift) & 0xF
+        z_q = (bzp >> z_shift) & 0xF
+        b_deq = (b_q.to(tl.float32) - z_q.to(tl.float32)) * bs
+        accumulator += tl.dot(a, b_deq.to(a.dtype))
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+    c = accumulator.to(c_ptr.dtype.element_ty)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=c_mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=c_mask)
+
+
+def matmul_dequantize_int4_s2(
+    x: torch.FloatTensor,
+    qweight: torch.IntTensor,
+    scales: torch.FloatTensor,
+    qzeros: torch.IntTensor,
+    group_size: int = 128,
+    output: torch.FloatTensor = None
+) -> torch.FloatTensor:
+    assert x.is_contiguous(), "A must be contiguous"
+    assert qweight.is_contiguous(), "qweight must be contiguous"
+    M, K = x.shape
+    Kq = qweight.shape[0] * 8
+    N = qweight.shape[1]
+    assert K == Kq, "Leading dimension mismatch"
+    assert scales.shape[0] == (K + group_size - 1) // group_size
+    assert qzeros.shape[0] == (K + group_size - 1) // group_size
+    assert scales.shape[1] == N
+    assert qzeros.shape[1] == (N + 7) // 8
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, output, scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size
+    )
+    return output
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 32}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_K': 128, 'BLOCK_SIZE_N': 32}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_K': 128, 'BLOCK_SIZE_N': 64}, num_stages=3, num_warps=8),
+    ],
+    key=['K', 'N'],
+)
+@triton.jit
+def quantize_int4_kernel(
+    x_ptr, qweight_ptr, scales_ptr, zeros_packed_ptr,
+    K, N,
+    stride_xk, stride_xn,
+    stride_qw, stride_qwn,
+    stride_sc, stride_scn,
+    stride_zp, stride_zpn,
+    group_size,
+    BLOCK_SIZE_K: tl.constexpr, BLOCK_SIZE_N: tl.constexpr,
+):
+    group_pid = tl.program_id(0)
+    sub_k = group_pid * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)[:, None]
+    tid_n = tl.program_id(1)
+    sub_n = tid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)[None, :]
+    mask_k = sub_k < K
+    mask_n = sub_n < N
+    mask = mask_k & mask_n
+    x = tl.load(x_ptr + sub_k * stride_xk + sub_n * stride_xn, mask=mask, other=0.0)
+    g_idx = sub_k // group_size
+    x_min = tl.min(x, axis=0, keepdim=True)
+    x_max = tl.max(x, axis=0, keepdim=True)
+    scale = (x_max - x_min) / 15.0
+    z = (-x_min / scale).to(tl.int32)
+    q = tl.clamp((x.to(tl.float32) / scale + z + 0.5).to(tl.int32), 0, 15)
+    q = q.to(tl.int32)
+    packed = tl.zeros([BLOCK_SIZE_K, BLOCK_SIZE_N // 8], dtype=tl.int32)
+    shifts = tl.arange(0, 8) * 4
+    cols_bit = (sub_n % 8) * 4
+    q = tl.reshape(q, [BLOCK_SIZE_K, BLOCK_SIZE_N])
+    for i in range(0, 8):
+        col_i = (sub_n // 8) * 8 + i
+        val = tl.where((col_i < N), q[:, col_i], 0)
+        shifted = val << (i * 4)
+        packed |= shifted
+    for i in range(0, 8):
+        zp_col = (sub_n // 8) * 8 + i
+        shifted_zp = tl.where((zp_col < N), z[:, zp_col], 0) << (i * 4)
+        zeros_packed = tl.sum(shifted_zp, axis=1, keepdim=True).to(tl.int32)
+    zeros_ptrs = zeros_packed_ptr + g_idx * stride_zpn + (sub_n // 8) * stride_zp
+    tl.store(zeros_ptrs, zeros_packed, mask=mask_k)
+    qstor = qweight_ptr + (sub_k // 8) * stride_qw + (sub_n // 8) * stride_qwn
+    tl.store(qstor, packed, mask=mask_k)
+    sc_ptrs = scales_ptr + g_idx * stride_scn + (sub_n) * stride_sc
+    tl.store(sc_ptrs, scale, mask=mask_n)
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    x = x.contiguous()
+    K, N = x.shape
+    qweight = torch.zeros((K // 8, N), dtype=torch.int32, device=x.device)
+    scales = torch.empty((K // group_size, N), dtype=torch.float32, device=x.device)
+    zeros = torch.empty((K // group_size, (N + 7) // 8), dtype=torch.int32, device=x.device)
+    grid = lambda META: (
+        triton.cdiv(K, META['BLOCK_SIZE_K']),
+        triton.cdiv(N, META['BLOCK_SIZE_N']),
+    )
+    quantize_int4_kernel[grid](
+        x, qweight, scales, zeros,
+        K, N,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        scales.stride(0), scales.stride(1),
+        zeros.stride(0), zeros.stride(1),
+        group_size
+    )
+    return qweight, scales, zeros
+
+
+def unpack_int4(
+    qweight: torch.IntTensor,
+    scales: torch.FloatTensor,
+    zeros: torch.IntTensor,
+    group_size: int = 128
+) -> torch.FloatTensor:
+    Kq, N = qweight.shape
+    K = Kq * 8
+    weight = torch.empty((K, N), dtype=torch.float32, device=qweight.device)
+    zeros_float = torch.empty_like(scales)
+    for g in range(scales.shape[0]):
+        for n in range(N):
+            z = (zeros[g, n // 8] >> ((n % 8) * 4)) & 0xF
+            zeros_float[g, n] = float(z)
+    for k in range(K):
+        for n in range(N):
+            q = (qweight[k // 8, n] >> ((k % 8) * 4)) & 0xF
+            g = k // group_size
+            weight[k, n] = (q - zeros_float[g, n]) * scales[g, n]
+    return weight.contiguous()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py.stdout
new file mode 100644
index 0000000..989e538
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_430740.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_430740 due to at 20:12:
+    BLOCK_SIZE_K: tl.constexpr, BLOCK_SIZE_N: tl.constexpr,
+):
+    group_pid = tl.program_id(0)
+    sub_k = group_pid * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)[:, None]
+    tid_n = tl.program_id(1)
+    sub_n = tid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)[None, :]
+    mask_k = sub_k < K
+    mask_n = sub_n < N
+    mask = mask_k & mask_n
+    x = tl.load(x_ptr + sub_k * stride_xk + sub_n * stride_xn, mask=mask, other=0.0)
+    g_idx = sub_k // group_size
+    x_min = tl.min(x, axis=0, keepdim=True)
+            ^
+TypeError("min() got an unexpected keyword argument 'keepdim'")
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_434177.py b/src/temp/gen/int4_matmul.py_gen_triton_code_434177.py
new file mode 100644
index 0000000..5d9a59e
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_434177.py
@@ -0,0 +1,250 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# int4 de-quant helpers
+@triton.jit
+def _dequantize_int4_unpack(xi32, mask0=0x0f, mask1=0xf0):
+    xi0 = (xi32 & mask0).to(tl.int8)
+    xi1 = ((xi32 & mask1) >> 4).to(tl.int8)
+    return xi0, xi1
+
+
+@triton.jit
+def _dequantize_int4_kernel(ptr, scales_ptr, zeros_ptr, M, N,
+                            stride_q, stride_s, stride_z,
+                            BLOCK_M: tl.constexpr,
+                            BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    q_offsets = (rm[:, None] * stride_q + (rn // 8)[None, :])
+    scales_offsets = (rm[:, None] * stride_s + (rn // 8)[None, :])
+    zeros_offsets = (rm[:, None] * stride_z + (rn // 8)[None, :])
+
+    mask_m = rm < M
+    mask_n = rn < N
+    mask = mask_m[:, None] & mask_n[None, :]
+
+    packed = tl.load(ptr + q_offsets, mask=mask, other=0)
+    s = tl.load(scales_ptr + scales_offsets, mask=mask, other=1.0)
+    z = tl.load(zeros_ptr + zeros_offsets, mask=mask, other=0.0)
+
+    offsets_0 = (rn % 8) * 4
+    offsets_1 = offsets_0 + 4
+    i0, i1 = _dequantize_int4_unpack(packed)
+    v0 = (i0.to(tl.float32) - z) * s
+    v1 = (i1.to(tl.float32) - z) * s
+
+    return v0, v1
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr,
+                  scales_ptr, zeros_ptr,
+                  M, N, K,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_eval_k, stride_eval_n,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  GROUP_SIZE_M: tl.constexpr,
+                  SPLIT_K: tl.constexpr,
+                  EVEN_K: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    pid_k = tl.program_id(2)
+
+    n_blocks_m = tl.cdiv(M, BLOCK_SIZE_M)
+    n_blocks_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    if GROUP_SIZE_M == 1:
+        group_id = 0
+        first_pid_m = 0
+    else:
+        group_id = pid_m // GROUP_SIZE_M
+        first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(n_blocks_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid_m % group_size_m)
+
+    if SPLIT_K > 1:
+        local_k = tl.cdiv(K, SPLIT_K)
+        k_offset = pid_k * local_k
+    else:
+        local_k = K
+        k_offset = 0
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = k_offset + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    scales_ptrs = scales_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+    zeros_ptrs = zeros_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, local_k, BLOCK_SIZE_K):
+        if EVEN_K or (k + BLOCK_SIZE_K <= local_k):
+            a = tl.load(a_ptrs, mask=offs_k[None, :] < local_k - k, other=0.0, eviction_policy="evict_last")
+            block_scale = tl.load(scales_ptrs, mask=offs_k[:, None] < local_k - k, other=1.0)
+            block_zero = tl.load(zeros_ptrs, mask=offs_k[:, None] < local_k - k, other=0.0)
+
+            packed_b = tl.load(b_ptrs, mask=offs_k[:, None] < local_k - k, other=0)
+            k_idx = (offs_k[:, None] % 8) * 4
+            val_low = (packed_b & 0x0F).to(tl.int8).to(tl.float32)
+            val_high = ((packed_b >> 4) & 0x0F).to(tl.int8).to(tl.float32)
+            b_low = (val_low - block_zero) * block_scale
+            b_high = (val_high - block_zero) * block_scale
+
+            acc = tl.dot(a, b_low, acc)
+            a_shift = tl.load(a_ptrs + stride_bk * (1 if EVEN_K else 8), mask=offs_k[None, :] + 8 < local_k - k, other=0.0, eviction_policy="evict_last")
+            acc = tl.dot(a_shift, b_high, acc)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K // 8) * stride_bk
+        scales_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+        zeros_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+
+    if SPLIT_K == 1:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.store(c_ptrs, acc.to(c_ptrs.type.element_ty), mask=c_mask)
+    else:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :] + pid_k * M * N
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.atomic_add(c_ptrs, acc, mask=c_mask)
+
+
+def matmul_dequantize_int4_s2(a, int4b_compressed, scales, zeros, M, N, K):
+    c_dtype = a.dtype
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 128
+    BLOCK_SIZE_K = 32
+    SPLIT_K = 1
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']),
+                         triton.cdiv(N, META['BLOCK_SIZE_N']),
+                         SPLIT_K)
+
+    if SPLIT_K > 1:
+        c = torch.empty((SPLIT_K, M, N), dtype=torch.float32, device=a.device)
+    else:
+        c = torch.empty((M, N), dtype=c_dtype, device=a.device)
+
+    EVEN_K = K % 32 == 0
+
+    matmul_kernel[grid](a, int4b_compressed, c,
+                        scales, zeros,
+                        M, N, K,
+                        a.stride(0), a.stride(1),
+                        int4b_compressed.stride(0), int4b_compressed.stride(1),
+                        c.stride(0) if c.dim() == 2 else c.stride(1),
+                        c.stride(1) if c.dim() == 2 else c.stride(2),
+                        scales.stride(0), scales.stride(1),
+                        BLOCK_SIZE_M=BLOCK_SIZE_M,
+                        BLOCK_SIZE_N=BLOCK_SIZE_N,
+                        BLOCK_SIZE_K=BLOCK_SIZE_K,
+                        GROUP_SIZE_M=8,
+                        SPLIT_K=SPLIT_K,
+                        EVEN_K=EVEN_K)
+    return c if SPLIT_K == 1 else c.sum(dim=0)
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    org_shape = x.shape
+    x = x.view(-1, group_size)
+    x_fp32 = x.float()
+    x_min = x_fp32.amin(dim=-1, keepdim=True)
+    x_max = x_fp32.amax(dim=-1, keepdim=True)
+    scale = (x_max - x_min) / 15.0
+    zero = (-x_min / scale + 0.5).clamp(0, 15)
+
+    int4 = (((x_fp32 - x_min) / scale + 0.5).clamp(0, 15)).round().to(torch.int8)
+
+    int4 = int4.view(-1)
+    packed = torch.zeros(x.size(0), x.size(1) // 2, dtype=torch.int32, device=x.device)
+    int4_even = int4[::2].to(torch.int32)
+    int4_odd = int4[1::2].to(torch.int32)
+    packed = int4_even | (int4_odd << 4)
+    packed = packed.view(org_shape[0], org_shape[1] // 2)
+    scale = scale.squeeze(-1)
+    zero = zero.squeeze(-1)
+    return packed, scale, zero
+
+
+def unpack_int4(packed: torch.Tensor, scale: torch.Tensor, zero: torch.Tensor, group_size: int = 128):
+    M, Nhalf = packed.shape
+    N = Nhalf * 2
+    unpacked = torch.empty(M, N, dtype=torch.float16, device=packed.device)
+
+    packed = packed.int()
+    for i in range(M):
+        for j in range(Nhalf):
+            low = (packed[i, j] & 0x0F).to(torch.float32)
+            high = ((packed[i, j] >> 4) & 0x0F).to(torch.float32)
+            group_idx = j * 2 // group_size
+            val_low = (low - zero[i, group_idx]) * scale[i, group_idx]
+            val_high = (high - zero[i, group_idx]) * scale[i, group_idx]
+            unpacked[i, 2 * j] = val_low.to(torch.float16)
+            unpacked[i, 2 * j + 1] = val_high.to(torch.float16)
+    return unpacked
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_434177.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_434177.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_434177.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_434177.py.stdout
new file mode 100644
index 0000000..959cf8e
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_434177.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_434177 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_461728.py b/src/temp/gen/int4_matmul.py_gen_triton_code_461728.py
new file mode 100644
index 0000000..c39d1ca
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_461728.py
@@ -0,0 +1,241 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_n[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_offset = k * BLOCK_SIZE_K * SPLIT_K
+        a_idx = offs_k[None, :] + k_offset
+        b_idx = offs_k[:, None] + k_offset
+        mask_a = (offs_m[:, None] < M) & (a_idx < K)
+        mask_b = (b_idx < K) & (offs_n[None, :] < N)
+
+        a = tl.load(a_ptrs + k_offset * stride_ak, mask=mask_a, other=0.0)
+        b = tl.load(b_ptrs + k_offset * stride_bk, mask=mask_b, other=0.0)
+
+        accumulator += tl.dot(a, b)
+    
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    if SPLIT_K > 1:
+        tl.atomic_add(c_ptrs, accumulator, mask=mask_c)
+    else:
+        tl.store(c_ptrs, accumulator.to(tl.float16), mask=mask_c)
+
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor, qw_packed: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor
+) -> torch.Tensor:
+    M, K = x.shape
+    N = qw_packed.shape[0] * 8 // 4
+    y = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    def grid(META):
+        return (
+            triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),
+            1,
+        )
+
+    matmul_kernel[grid](
+        x, qw_packed, y,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qw_packed.stride(0), 4,
+        y.stride(0), y.stride(1),
+        BLOCK_SIZE_M=64,
+        BLOCK_SIZE_N=64,
+        BLOCK_SIZE_K=32,
+        GROUP_SIZE_M=8,
+        SPLIT_K=1,
+    )
+    return y
+
+@triton.jit
+def quantize_int4_kernel(
+    src_ptr, dst_ptr, scales_ptr, zeros_ptr,
+    num_rows, num_cols,
+    stride_sr, stride_sc,
+    stride_dr, stride_dc,
+    stride_scale_r,
+    BLOCK_SIZE: tl.constexpr,
+    GROUP_SIZE: tl.constexpr,
+):
+    row = tl.program_id(0)
+    col_start = tl.program_id(1) * GROUP_SIZE
+    offs = col_start + tl.arange(0, BLOCK_SIZE)
+
+    mask = offs < num_cols
+    src_ptrs = src_ptr + row * stride_sr + offs * stride_sc
+    src = tl.load(src_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    min_val = tl.min(src)
+    max_val = tl.max(src)
+    scale = (max_val - min_val) / ((2 ** 4) - 1)
+    zero = -min_val / scale
+    scale_store = scale.to(tl.float16)
+    zero_store = zero.to(tl.float16)
+
+    grouped = (src - min_val) / scale
+    int4 = tl.cast(grouped + 0.5, tl.int32)
+    packed = (int4 & 0xF) | (tl.shl(int4, 4) & 0xF)
+    packed = tl.view(packed, tl.int32)
+
+    scale_zero_idx = row + (col_start // GROUP_SIZE) * stride_scale_r
+    scales_ptrs = scales_ptr + scale_zero_idx
+    zeros_ptrs = zeros_ptr + scale_zero_idx
+
+    tl.store(scales_ptrs, scale_store)
+    tl.store(zeros_ptrs, zero_store)
+
+    if col_start < num_cols:
+        src_ptrs = src_ptr + row * stride_sr + col_start * stride_sc
+        for j in range(0, tl.cdiv(GROUP_SIZE, BLOCK_SIZE)):
+            offset = j * BLOCK_SIZE
+            mask = (col_start + offset + tl.arange(0, BLOCK_SIZE)) < num_cols
+            src = tl.load(src_ptrs + offset * stride_sc, mask=mask, other=0.0).to(tl.float32)
+            rescaled = (src - min_val) / scale
+            int4 = tl.cast(rescaled + 0.5, tl.int32)
+            packed = tl.zeros([BLOCK_SIZE // 8], dtype=tl.int32)
+            for k in range(0, BLOCK_SIZE // 8):
+                idx = k * 8 + tl.arange(0, 8)
+                packed[k] = (
+                    (int4[idx] & 0xF) |
+                    tl.shl((int4[idx + 1] & 0xF), 4) |
+                    tl.shl((int4[idx + 2] & 0xF), 8) |
+                    tl.shl((int4[idx + 3] & 0xF), 12) |
+                    tl.shl((int4[idx + 4] & 0xF), 16) |
+                    tl.shl((int4[idx + 5] & 0xF), 20) |
+                    tl.shl((int4[idx + 6] & 0xF), 24) |
+                    tl.shl((int4[idx + 7] & 0xF), 28)
+                )
+            dst_ptrs = dst_ptr + row * stride_dr + (offset // 8) * stride_dc
+            write_mask = (col_start + offset) < num_cols
+            tl.store(dst_ptrs, packed, mask=write_mask)
+
+def quantize_int4(weight: torch.Tensor, group_size: int = 128) -> tuple:
+    assert weight.dim() == 2
+    num_rows, num_cols = weight.shape
+    group_size = min(group_size, num_cols)
+    assert num_cols % group_size == 0
+    num_groups = num_cols // group_size
+
+    qw_packed = torch.empty(
+        (num_rows, num_cols // 8),
+        dtype=torch.int32,
+        device=weight.device
+    )
+    scales = torch.empty(
+        (num_rows, num_groups),
+        dtype=torch.float16,
+        device=weight.device
+    )
+    zeros = torch.empty_like(scales)
+
+    def grid():
+        return (
+            num_rows,
+            num_groups,
+        )
+
+    quantize_int4_kernel[grid](
+        weight, qw_packed, scales, zeros,
+        num_rows, num_cols,
+        weight.stride(0), weight.stride(1),
+        qw_packed.stride(0), qw_packed.stride(1),
+        scales.stride(0),
+        BLOCK_SIZE=32,
+        GROUP_SIZE=group_size,
+    )
+    return qw_packed, scales, zeros
+
+def unpack_int4(qw_packed: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    num_rows = qw_packed.size(0)
+    num_cols = qw_packed.size(1) * 8
+    weight = torch.empty((num_rows, num_cols), dtype=torch.float16, device=qw_packed.device)
+    for row in range(num_rows):
+        group_idx = 0
+        for col in range(0, num_cols, 8):
+            packed = qw_packed[row, col // 8]
+            scale = scales[row, group_idx]
+            zero = zeros[row, group_idx]
+            if (col + 8) % group_size == 0:
+                group_idx += 1
+            for i in range(8):
+                val = (packed >> (4 * i)) & 0xF
+                rescaled = val * scale + zero
+                weight[row, col + i] = rescaled
+    return weight
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_461728.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_461728.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_461728.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_461728.py.stdout
new file mode 100644
index 0000000..3f079f3
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_461728.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_461728 due to module 'triton.language' has no attribute 'shl'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_48845.py b/src/temp/gen/int4_matmul.py_gen_triton_code_48845.py
new file mode 100644
index 0000000..fc2f471
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_48845.py
@@ -0,0 +1,190 @@
+
+import torch
+import triton
+import triton.language as tl
+
+### -------------------  Triton kernel for INT4 matmul – autotuned  ------------------- ###
+@triton.autotune(
+    configs=[
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K:   tl.constexpr,
+):
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_k = tl.cdiv(K, BLOCK_SIZE_K)
+    k_per_iter = BLOCK_SIZE_K * SPLIT_K
+
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k0 = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    mask_m = offs_m < M
+    mask_n = offs_n < N
+
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_am + offs_k0[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k0[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn)
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, k_per_iter)):
+        idx_k = k * k_per_iter + pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+        mask_k = idx_k < K
+        a = tl.load(a_ptrs, mask=mask_m[:, None] & mask_k[None, :], other=0.0)
+
+        b_offs = (idx_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+        b_int = tl.load(b_ptr + b_offs, mask=mask_k[:, None] & mask_n[None, :], other=0)
+
+        g = idx_k[:, None] // group_size
+        bs_offs = g * stride_bsk + offs_n[None, :] * stride_bsn
+        bzp_offs = g * stride_bzpk + (offs_n[None, :]//8) * stride_bzpn
+        bs = tl.load(bs_ptr + bs_offs, mask=g*0 == 0, other=1.0)
+        bzp = tl.load(bzp_ptr + bzp_offs, mask=g*0 == 0, other=0)
+
+        shift_k = (idx_k[:, None] % 8) * 4
+        shift_n = (offs_n[None, :] % 8) * 4
+        b_val = ((b_int >> shift_k) & 0xF) - ((bzp >> shift_n) & 0xF)
+        b_fp = (b_val * bs).to(a.dtype)
+
+        acc += tl.dot(a, b_fp)
+        a_ptrs += k_per_iter * stride_ak
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)[:, None]
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)[None, :]
+    mask_c = mask_m[:, None] & mask_n[None, :]
+    c_ptrs = c_ptr + offs_cm * stride_cm + offs_cn * stride_cn
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, acc, mask=mask_c)
+    else:
+        tl.atomic_add(c_ptrs, acc, mask=mask_c)
+
+### -------------------  Launcher  ------------------- ###
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    qzeros: torch.Tensor,
+    group_size: int = 128
+) -> torch.Tensor:
+    assert x.is_contiguous()
+    M, _ = x.shape
+    N = scales.shape[1]
+    out = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, out,
+        scales, qzeros,
+        M, N, x.shape[1],
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        out.stride(0), out.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size
+    )
+    return out
+
+### -------------------  quantize / unpack  ------------------- ###
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, None]:
+    w = weights.to(torch.float32)
+    K, N = w.shape
+    assert N % group_size == 0, "N must be divisible by group_size"
+    w = w.view(-1, group_size)
+    wmin = w.min(dim=1, keepdim=True)[0]
+    wmax = w.max(dim=1, keepdim=True)[0]
+    scales = (wmax - wmin) / 15.0
+    zeros = (-wmin / scales).round().clamp(0, 15)
+
+    w = torch.round((w - wmin) / scales).clamp(0, 15).to(torch.uint8)
+    packed = torch.zeros(w.shape[0], w.shape[1] // 2, dtype=torch.int32, device=w.device)
+    packed |= (w[:, 0::2] & 0xF)
+    packed |= (w[:, 1::2] & 0xF) << 4
+    packed = packed.view(K, N // 8)
+    scales = scales.view(K, N // group_size).contiguous()
+    zeros  =  zeros.view(K, N // group_size).contiguous()
+    return packed.contiguous(), scales, zeros, None
+
+def unpack_int4(weights: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    Bits = 4
+    Kq, N = weights.shape
+    K = Kq * Bits
+    unpacked = torch.empty(K, N, dtype=scales.dtype, device=weights.device)
+    for b in range(Bits):
+        int4 = (weights >> b) & 0x1
+        row_off = b
+        unpacked[row_off::Bits, :] = int4 * scales.view(-1, N).expand_as(int4) + zeros.view(-1, N).expand_as(int4)
+    return unpacked.view(weights.shape[0] * 8, N)
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_48845.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_48845.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_48845.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_48845.py.stdout
new file mode 100644
index 0000000..4b8c3c4
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_48845.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_48845 due to shape '[4096, 512]' is invalid for input of size 8388608
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_490790.py b/src/temp/gen/int4_matmul.py_gen_triton_code_490790.py
new file mode 100644
index 0000000..b61545c
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_490790.py
@@ -0,0 +1,198 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# --------------------------------------------------
+# Triton kernel
+# --------------------------------------------------
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    x_ptr, qw_ptr, sc_ptr, zp_ptr, c_ptr,
+    M, N, K,
+    stride_xm, stride_xk,
+    stride_qwk, stride_qwn,
+    stride_scg, stride_scn,
+    stride_zpg, stride_zpn,
+    stride_cm, stride_cn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    pid_sp_k = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_n = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = pid_sp_k * BLOCK_SIZE_K * SPLIT_K + tl.arange(0, BLOCK_SIZE_K * SPLIT_K)
+
+    mask_m = offs_m < M
+    mask_n = offs_n < N
+    mask_k = offs_k < K
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k0 in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        current_offs_k = k0 * BLOCK_SIZE_K * SPLIT_K + offs_k
+        mask_kk = current_offs_k < K
+
+        x_ptrs = x_ptr + offs_m[:, None] * stride_xm + current_offs_k[None, :] * stride_xk
+        x_blk = tl.load(x_ptrs, mask=mask_m[:, None] & mask_kk[None, :], other=0.0)
+
+        qw_ptrs = qw_ptr + (current_offs_k[:, None] // 8) * stride_qwk + offs_n[None, :] * stride_qwn
+        qw_blk = tl.load(qw_ptrs, mask=mask_kk[:, None] & mask_n[None, :], other=0)
+
+        # scale & zp indices
+        g_idx = (current_offs_k // group_size)
+        sc_ptrs = sc_ptr + g_idx[:, None] * stride_scg + offs_n[None, :] * stride_scn
+        zp_ptrs = zp_ptr + g_idx[:, None] * stride_zpg + (offs_n[None, :] // 8) * stride_zpn
+
+        sc = tl.load(sc_ptrs, mask=mask_kk[:, None] & mask_n[None, :], other=0.0).to(tl.float32)
+        zp = tl.load(zp_ptrs, mask=mask_kk[:, None] & mask_n[None, :], other=0)
+
+        shifts = (current_offs_k % 8) * 4
+        int4_w = (qw_blk >> shifts[:, None]) & 0xF
+        zp_shifts = (offs_n[None, :] % 8) * 4
+        int4_zp = (zp >> zp_shifts) & 0xF
+        deq_w = ((int4_w.float() - int4_zp.float()) * sc).to(tl.float16)
+
+        acc += tl.dot(x_blk.to(tl.float16), deq_w).to(tl.float32)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    out_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_out = (offs_cm < M)[:, None] & (offs_cn < N)[None, :]
+
+    if SPLIT_K > 1:
+        tl.atomic_add(out_ptrs, acc.astype(tl.float16), mask=mask_out)
+    else:
+        tl.store(out_ptrs, acc.astype(tl.float16), mask=mask_out)
+
+# --------------------------------------------------
+# Wrapper
+# --------------------------------------------------
+def matmul_dequantize_int4_s2(x: torch.Tensor, qweight: torch.Tensor,
+                              scale: torch.Tensor, zero_point: torch.Tensor,
+                              group_size: int = 128) -> torch.Tensor:
+    assert x.dim() == 2
+    assert qweight.dim() == 2
+    assert scale.dim() == 2
+    assert zero_point.dim() == 2
+    M, K = x.shape
+    K8, N = qweight.shape
+    assert K == K8 * 8
+    x = x.contiguous()
+    output = torch.empty((M, N), dtype=torch.float16, device=x.device)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+    matmul_kernel[grid](
+        x, qweight, scale, zero_point, output,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        scale.stride(0), scale.stride(1),
+        zero_point.stride(0), zero_point.stride(1),
+        output.stride(0), output.stride(1),
+        group_size,
+    )
+    return output
+
+# --------------------------------------------------
+# Quantization helpers
+# --------------------------------------------------
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    orig_shape = x.shape
+    x = x.view(-1, orig_shape[-1])
+    K, N = x.shape
+    if K % group_size:
+        pad_k = (K + group_size - 1) // group_size * group_size
+        x = torch.nn.functional.pad(x, (0, 0, 0, pad_k - K))
+        K = pad_k
+    x = x.view(-1, group_size, N)
+    x_min = x.amin(dim=1, keepdim=True)
+    x_max = x.amax(dim=1, keepdim=True)
+    denom = x_max - x_min
+    denom[denom.abs() < 1e-12] = 1.0
+    sc = (denom) / 15.0
+    zp = torch.round(-x_min / sc)
+    q = torch.clamp(torch.round(x / sc + zp), 0, 15).to(torch.int32)
+    qf = q.view(K, N)
+    packed = torch.zeros(K // 8, N, dtype=torch.int32, device=x.device)
+    for shift in range(8):
+        packed |= qf[shift::8, :] << (shift * 4)
+    sc = sc.view(K // group_size, N)
+    zp = zp.view(K // group_size, N)
+    return packed, sc, zp
+
+def unpack_int4(packed: torch.Tensor, scale: torch.Tensor, zero_point: torch.Tensor,
+                group_size: int = 128):
+    K8, N = packed.shape
+    K = K8 * 8
+    w = torch.empty(K, N, dtype=torch.float32, device=packed.device)
+    for shift in range(8):
+        w[shift::8, :] = ((packed >> (shift * 4)) & 0xF).float()
+    scale1 = scale.view(-1, N)
+    zp1 = zero_point.view(-1, N)
+    return ((w.view(-1, group_size, N) - zp1.unsqueeze(1)) * scale1.unsqueeze(1)).view(K, N)
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_490790.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_490790.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_490790.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_490790.py.stdout
new file mode 100644
index 0000000..5597bb1
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_490790.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_490790 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_511041.py b/src/temp/gen/int4_matmul.py_gen_triton_code_511041.py
new file mode 100644
index 0000000..6efc026
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_511041.py
@@ -0,0 +1,203 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=8),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_k = tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)
+
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k_start = pid_z * (BLOCK_SIZE_K * SPLIT_K) + tl.arange(0, BLOCK_SIZE_K * SPLIT_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k_start[None, :] * stride_ak
+    b_ptrs = b_ptr + ((offs_k_start[:, None] // 8) * stride_bk) + offs_n[None, :] * stride_bn
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        a = tl.load(a_ptrs, mask=(offs_k_start[None, :] < K), other=0.0)
+        b_i32 = tl.load(b_ptrs, mask=(offs_k_start[:, None] < K), other=0)
+
+        n_idx = offs_n[None, :]
+        k_idx = offs_k_start[:, None]
+        mask_valid = (k_idx < K)
+
+        group_id_k = k_idx // group_size
+        scales = tl.load(bs_ptr + group_id_k * stride_bsk + n_idx * stride_bsn, mask=mask_valid, other=0.0)
+        zeros = tl.load(bzp_ptr + group_id_k * stride_bzpk + (n_idx // 8) * stride_bzpn, mask=mask_valid, other=0)
+
+        b_shift = ((k_idx % 8) * 4)
+        zp_shift = ((n_idx % 8) * 4)
+
+        b_i4 = (b_i32 >> b_shift) & 0xF
+        zp_i4 = (zeros >> zp_shift) & 0xF
+        b_float = (b_i4 - zp_i4).to(tl.float32) * scales.to(tl.float32)
+
+        accumulator += tl.dot(a.to(tl.float32), b_float.to(tl.float32))
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+
+    c = accumulator
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor, qzeros: torch.IntTensor, group_size: int = 128, output=None) -> torch.FloatTensor:
+    assert x.ndim == 2 and qweight.ndim == 2
+    assert x.shape[-1] == (qweight.shape[0] * 8)
+    assert x.is_contiguous()
+
+    M, K = x.shape
+    N = scales.shape[1]
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+
+    def grid_fn(META):
+        return (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']), META['SPLIT_K'])
+
+    matmul_kernel[grid_fn](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return output
+
+
+def quantize_int4(w: torch.Tensor, group_size: int = 128):
+    assert w.dim() == 2
+    w = w.float()
+    oc, ic = w.shape
+    assert ic % group_size == 0
+    w = w.reshape(oc, ic // group_size, group_size)
+
+    wmax = w.amax(dim=2, keepdim=True)
+    wmin = w.amin(dim=2, keepdim=True)
+    scale = (wmax - wmin) / 15.0
+    zero = (-wmin / scale).round().clamp(0, 15).to(torch.int8)
+
+    int_w = ((w - wmin) / scale).round().clamp(0, 15).to(torch.int8)
+
+    int_w_reshaped = int_w.view(oc, ic)
+    zero_reshaped = zero.view(oc, -1)
+
+    col_bytes = torch.empty(oc, ic // 2, dtype=torch.int8, device=w.device)
+    for j in range(0, ic, 2):
+        lo = int_w_reshaped[:, j]
+        hi = int_w_reshaped[:, j + 1]
+        packed = (hi << 4) | lo
+        col_bytes[:, j // 2] = packed.to(torch.int8)
+
+    out = col_bytes.view(oc, ic // 8).view(torch.int32)
+    return out, scale.squeeze(-1).half(), zero_reshaped
+
+
+def unpack_int4(w_packed: torch.IntTensor, scale: torch.Tensor, zero: torch.Tensor, group_size: int = 128):
+    oc, ic_bytes = w_packed.shape
+    ic = ic_bytes * 8
+    assert ic % group_size == 0
+
+    w_int = torch.empty(oc, ic, dtype=torch.int8, device=w_packed.device)
+    packed = w_packed.view(torch.int8).view(oc, ic // 8)
+    for j in range(ic // 8):
+        b = packed[:, j]
+        for k in range(8):
+            val = (b >> (k * 4)) & 0xF
+            w_int[:, j * 8 + k] = val
+
+    num_groups = ic // group_size
+    scale = scale.view(oc, num_groups, 1).expand(-1, -1, group_size).reshape(oc, ic)
+    zero = zero.view(oc, num_groups, 1).expand(-1, -1, group_size).reshape(oc, ic)
+    return (w_int.float() - zero.float()) * scale.float()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_511041.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_511041.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_511041.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_511041.py.stdout
new file mode 100644
index 0000000..c5e31e1
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_511041.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_511041 due to shape '[4096, 512]' is invalid for input of size 8388608
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_512013.py b/src/temp/gen/int4_matmul.py_gen_triton_code_512013.py
new file mode 100644
index 0000000..2e27b87
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_512013.py
@@ -0,0 +1,199 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# -------------------------------------------------------------------------
+# Triton kernel – core INT4 matmul
+# -------------------------------------------------------------------------
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=2),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    pid_k = tl.program_id(axis=1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_offs = k * BLOCK_SIZE_K * SPLIT_K + offs_k
+        ks = bs_ptr + (k_offs // group_size) * stride_bsk + offs_n[None, :] * stride_bsn
+        kzp = bzp_ptr + (k_offs // group_size) * stride_bzpk + (offs_n[None, :] // 8) * stride_bzpn
+        a = tl.load(a_ptrs, mask=k_offs[None, :] < K, other=0.0)
+        b = tl.load(b_ptrs, mask=k_offs[:, None] < K, other=0)
+        scale = tl.load(ks)
+        zero = tl.load(kzp)
+        b_shift = (k_offs[:, None] % 8) * 4
+        z_shift = (offs_n[None, :] % 8) * 4
+        b_deq = (((b >> b_shift) & 0xF).to(tl.float32) - ((zero >> z_shift) & 0xF).to(tl.float32)) * scale
+        accumulator += tl.dot(a.to(tl.float16), b_deq.to(tl.float16))
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * SPLIT_K // 8 * stride_bk
+    c = accumulator.to(tl.float16)
+
+    if SPLIT_K > 1:
+        offs_cm = offs_m[:, None] * stride_cm + offs_n[None, :] * stride_cn
+        tl.atomic_add(c_ptr + offs_cm, c, mask=(offs_m[:, None] < M) & (offs_n[None, :] < N))
+    else:
+        offs_cm = offs_m[:, None] * stride_cm + offs_n[None, :] * stride_cn
+        tl.store(c_ptr + offs_cm, c, mask=(offs_m[:, None] < M) & (offs_n[None, :] < N))
+
+# -------------------------------------------------------------------------
+# Python wrapper
+# -------------------------------------------------------------------------
+def matmul_dequantize_int4_s2(
+    x: torch.FloatTensor,
+    qweight: torch.IntTensor,
+    scales: torch.FloatTensor,
+    qzeros: torch.IntTensor,
+    group_size: int = 128,
+    output: torch.FloatTensor = None
+) -> torch.FloatTensor:
+    assert x.is_contiguous(), "input must be contiguous"
+    M, K = x.shape
+    N = scales.shape[1]
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=torch.float16)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, output, scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(1), qweight.stride(0),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size
+    )
+    return output
+
+# -------------------------------------------------------------------------
+# Quantization / De-quantization helpers
+# -------------------------------------------------------------------------
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    """
+    Converts fp16/fp32 weight tensor of shape (K, N) into INT4 representation.
+    Returns (packed_int32, scales, zeros) all on same device/dtype
+    layout expected by the kernel.
+    """
+    x = x.t().contiguous()          # -> (N, K)
+    N, K = x.shape
+    assert K % group_size == 0, f"K ({K}) not divisible by group_size {group_size}"
+
+    x = x.view(N, K // group_size, group_size).float()
+    x_min = x.min(dim=2, keepdim=True)[0]
+    x_max = x.max(dim=2, keepdim=True)[0]
+
+    scales = (x_max - x_min) / 15.0
+    zp_fp = (-x_min / scales).round().clamp(0, 15)
+    x_q = (x / scales + zp_fp).round().clamp(0, 15)
+    scales = scales.squeeze(2).t().contiguous()
+    zeros = zp_fp.squeeze(2).t().contiguous()
+
+    # Flatten to (N, K) before packing
+    x_q = x_q.view(N, K)
+    packed = torch.zeros((N, K // 8), dtype=torch.int32, device=x.device)
+    for i in range(8):
+        packed |= ((x_q[:, i::8].to(torch.int32) & 0xF) << (4 * i))
+    packed = packed.t().contiguous()
+    return packed, scales, zeros
+
+
+def unpack_int4(qweight: torch.IntTensor,
+                scales: torch.FloatTensor,
+                zeros: torch.FloatTensor,
+                group_size: int = 128) -> torch.FloatTensor:
+    """
+    Unpack INT4 tensor back into float32/float16 tensor for correctness test.
+    """
+    qweight, scales, zeros = qweight.t(), scales.t(), zeros.t()
+    N, K_w = qweight.shape
+    K = K_w * 8
+    weight = torch.zeros((N, K), dtype=torch.float32, device=qweight.device)
+
+    for i in range(8):
+        mask = 0xF << (i * 4)
+        cols = torch.arange(i, K, 8, device=qweight.device)
+        scale_col = scales[:, cols // group_size]
+        zero_col = zeros[:, cols // group_size]
+        vals = ((qweight & mask) >> (i * 4)).to(torch.float32)
+        weight[:, cols] = (vals - zero_col) * scale_col
+    return weight.t()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_512013.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_512013.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_512013.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_512013.py.stdout
new file mode 100644
index 0000000..36d63e1
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_512013.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_512013 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_52090.py b/src/temp/gen/int4_matmul.py_gen_triton_code_52090.py
new file mode 100644
index 0000000..ec6cfdc
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_52090.py
@@ -0,0 +1,180 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=5, num_warps=2),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=5, num_warps=2),
+    ],
+    key=['M', 'N', 'K']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales, stride_zeros,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+    grid_m = (M + BLOCK_SIZE_M - 1) // BLOCK_SIZE_M
+    grid_n = (N + BLOCK_SIZE_N - 1) // BLOCK_SIZE_N
+    num_pid_in_group = GROUP_SIZE_M * grid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(grid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k[:, None] // 2) * stride_bk + offs_n[None, :] * stride_bn)
+
+    scales_ptrs = scales_ptr + (offs_k * stride_scales)
+    zeros_ptrs = zeros_ptr + (offs_k * stride_zeros)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_idx = k * BLOCK_SIZE_K * SPLIT_K + offs_k
+        mask_k = k_idx[None, :] < K
+        a = tl.load(a_ptrs, mask=mask_k, other=0.0)
+
+        b_idx = k_idx[:, None] // 2
+        b_raw = tl.load(b_ptrs, mask=b_idx < (K * N) // 8, other=0)
+
+        scales = tl.load(scales_ptrs, mask=k_idx < K, other=1.0)
+        zeros = tl.load(zeros_ptrs, mask=k_idx < K, other=0.0)
+
+        b_dequant = tl.zeros((BLOCK_SIZE_K, BLOCK_SIZE_N), dtype=tl.float32)
+        for i in range(0, BLOCK_SIZE_K):
+            sub_i = i // 2
+            shift = (i % 2) * 4
+            mask = tl.full((BLOCK_SIZE_N,), 0x0F, dtype=tl.int32)
+            val = (b_raw[sub_i, :] >> shift) & mask
+            val_f = val.to(tl.float32)
+            dequant = val_f * scales[i] + zeros[i]
+            b_dequant = tl.store(b_dequant, dequant, mask=i < BLOCK_SIZE_K)
+
+        accumulator += tl.dot(a, b_dequant)
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 2) * stride_bk
+        scales_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_scales
+        zeros_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_zeros
+
+    if SPLIT_K > 1:
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+        mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.atomic_add(c_ptrs, accumulator, mask=mask)
+    else:
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+        mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.store(c_ptrs, accumulator, mask=mask)
+
+def matmul_dequantize_int4_s2(a: torch.Tensor, b_quant: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, K: int) -> torch.Tensor:
+    M, _ = a.shape
+    _, N = b_quant.shape
+    c = torch.empty((M, N), dtype=a.dtype, device=a.device)
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']), 1)
+    matmul_kernel[grid](
+        a, b_quant, c,
+        scales, zeros,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b_quant.stride(0), b_quant.stride(1),
+        c.stride(0), c.stride(1),
+        scales.stride(0), zeros.stride(0),
+    )
+    return c
+
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    w_f = weights.to(torch.float32)
+    shape = w_f.shape
+    w_f = w_f.reshape(-1, group_size)
+    w_min = w_f.min(dim=1, keepdim=True)[0]
+    w_max = w_f.max(dim=1, keepdim=True)[0]
+    scales = (w_max - w_min) / 15.0
+    zeros = -w_min / scales
+    w_int4 = torch.round((w_f - w_min) / scales).clamp(0, 15).to(torch.uint8)
+    w_packed = torch.zeros(w_int4.shape[0], w_int4.shape[1] // 2, dtype=torch.int32, device=weights.device)
+    for i in range(0, w_int4.shape[1], 2):
+        val0 = w_int4[:, i].to(torch.int32)
+        val1 = w_int4[:, i+1].to(torch.int32) if (i+1) < w_int4.shape[1] else 0
+        w_packed[:, i//2] = (val0 & 0x0F) | ((val1 & 0x0F) << 4)
+    w_packed = w_packed.reshape(shape[0], shape[1] // 2)
+    scales = scales.reshape(shape[0], shape[1] // group_size)
+    zeros = zeros.reshape(shape[0], shape[1] // group_size)
+    return w_packed, scales, zeros
+
+def unpack_int4(weights: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    shape = weights.shape
+    w_packed = weights.reshape(-1, shape[-1])
+    scales = scales.reshape(-1, scales.shape[-1])
+    zeros = zeros.reshape(-1, zeros.shape[-1])
+    w_unpacked = torch.zeros(w_packed.shape[0], w_packed.shape[1] * 2, dtype=torch.float32, device=weights.device)
+    for i in range(w_packed.shape[0]):
+        group_idx = i // (shape[-1] * 2 // group_size)
+        for j in range(w_packed.shape[1]):
+            val = w_packed[i, j]
+            low = val & 0x0F
+            high = (val >> 4) & 0x0F
+            w_unpacked[i, j*2] = low * scales[i, group_idx] + zeros[i, group_idx]
+            w_unpacked[i, j*2+1] = high * scales[i, group_idx] + zeros[i, group_idx]
+    return w_unpacked.reshape(shape[0], shape[1] * 2)
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_52090.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_52090.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_52090.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_52090.py.stdout
new file mode 100644
index 0000000..6689bda
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_52090.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_52090 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_530716.py b/src/temp/gen/int4_matmul.py_gen_triton_code_530716.py
new file mode 100644
index 0000000..36139a7
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_530716.py
@@ -0,0 +1,255 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# ------------------------------------------------------------
+# Triton kernel: matmul with on-the-fly INT4 de-quantisation
+# ------------------------------------------------------------
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=8),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k  = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k[:, None] // 8) * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_off = k * BLOCK_SIZE_K * SPLIT_K
+        mask_k = (offs_k[None, :] + k_off) < K
+        mask_a = (offs_am[:, None] < M) & mask_k
+        mask_b = mask_k & (offs_bn[None, :] < N)
+
+        a = tl.load(a_ptrs + k_off * stride_ak, mask=mask_a, other=0.0)
+        b = tl.load(b_ptrs + (k_off // 8) * stride_bk, mask=mask_b, other=0.0)
+
+        group_idx = (offs_k[None, :] + k_off) // group_size
+        bs   = tl.load(bs_ptr   + group_idx * stride_bsk   + offs_bn[None, :] * stride_bsn,   mask=mask_b, other=0.0)
+        bzps = tl.load(bzp_ptr  + group_idx * stride_bzpk  + (offs_bn[None, :] // 8) * stride_bzpn, mask=mask_b, other=0.0)
+
+        b_shift = ((offs_k[None, :] + k_off) % 8) * 4
+        bzp_shift = (offs_bn[None, :] % 8) * 4
+
+        int4_b   = (b    >> b_shift)   & 0xF
+        int4_bzp = (bzps >> bzp_shift) & 0xF
+
+        b_deq = ((int4_b - int4_bzp) * bs).to(tl.float16)
+        accumulator += tl.dot(a.to(tl.float16), b_deq)
+
+    c = accumulator.to(tl.float16)
+    c_ptrs = c_ptr + (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M))[:, None] * stride_cm + (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N))[None, :] * stride_cn
+    mask   = ((pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M))[:, None] < M) & ((pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N))[None, :] < N)
+    if SPLIT_K > 1:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+    else:
+        tl.store(c_ptrs, c, mask=mask)
+
+# ------------------------------------------------------------
+# Wrapper: launch the matmul kernel
+# ------------------------------------------------------------
+def matmul_dequantize_int4_s2(x: torch.Tensor, qweight: torch.Tensor,
+                              scales: torch.Tensor, zeros: torch.Tensor,
+                              group_size: int = 128) -> torch.Tensor:
+    assert x.is_contiguous()
+    assert qweight.is_contiguous()
+    assert scales.is_contiguous()
+    assert zeros.is_contiguous()
+
+    M, K = x.shape
+    N = scales.shape[1]
+
+    output = torch.empty((M, N), device=x.device, dtype=torch.float16)
+
+    def grid(META):
+        return (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+                META['SPLIT_K'])
+
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, zeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        zeros.stride(0), zeros.stride(1),
+        group_size,
+        GROUP_SIZE_M=8, SPLIT_K=1
+    )
+    return output
+
+
+# ------------------------------------------------------------
+# Triton kernel: INT4 quantisation (packing helper)
+# ------------------------------------------------------------
+@triton.jit
+def pack_kernel(
+    src_ptr, dst_ptr, scales_ptr, zeros_ptr,
+    stride_sr, stride_sc,
+    stride_dr, stride_dc,
+    stride_s, stride_z,
+    BLOCK_M: tl.constexpr,  # rows handled (tile)
+    BLOCK_N: tl.constexpr,  # cols handled (tile)
+    GROUP_SIZE: tl.constexpr
+):
+    row = tl.program_id(0)
+    gs  = tl.program_id(1)
+
+    col_start = gs * GROUP_SIZE
+    col_off   = tl.arange(0, BLOCK_N)
+    cols = col_start + col_off
+
+    mask = cols < stride_sc  # valid in the row
+    vals = tl.load(src_ptr + row * stride_sr + cols, mask=mask, other=0.0)
+
+    max_val = tl.max(vals, axis=0)
+    min_val = tl.min(vals, axis=0)
+    scale = (max_val - min_val) / 15.0
+    zero  = -min_val / scale
+
+    s_idx = row * (stride_sc // GROUP_SIZE) + gs
+    tl.store(scales_ptr + s_idx, scale.to(tl.float16))
+    tl.store(zeros_ptr  + s_idx,  zero.to(tl.float16))
+
+    for shift in range(0, GROUP_SIZE, 8):
+        # 8 contiguous floats
+        idx = shift + tl.arange(0, 8)
+        msk = (col_start + idx) < stride_sc
+        v   = tl.load(src_ptr + row * stride_sr + col_start + idx, mask=msk, other=0.0)
+
+        q   = ((v / scale + zero) + 0.5).to(tl.int32)
+        q   = tl.maximum(tl.minimum(q, 15), 0)
+
+        packed = tl.full([8], 0, dtype=tl.int32)
+        for ch in range(8):
+            packed = tl.where(msk,
+                              packed | (q[ch] << (ch * 4)),
+                              packed)
+
+        col_int = (col_start + shift) // 8
+        tl.store(dst_ptr + row * stride_dr + col_int, packed[0])
+
+
+# ------------------------------------------------------------
+# Wrapper: quantise a weight matrix down to INT4
+# ------------------------------------------------------------
+def quantize_int4(weight: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    assert weight.dim() == 2
+    rows, cols = weight.shape
+
+    packed = torch.empty((rows, cols // 8), dtype=torch.int32, device=weight.device)
+    scales = torch.empty((rows, cols // group_size), dtype=torch.float16, device=weight.device)
+    zeros  = torch.empty_like(scales)
+
+    grid = lambda _: (rows, cols // group_size)
+
+    pack_kernel[grid](
+        weight, packed, scales, zeros,
+        weight.stride(0), weight.stride(1),
+        packed.stride(0), packed.stride(1),
+        scales.stride(0), zeros.stride(0),
+        BLOCK_M=1, BLOCK_N=group_size, GROUP_SIZE=group_size
+    )
+    return packed, scales, zeros
+
+
+# ------------------------------------------------------------
+# Helper: unpack INT4 back to float16 – use only for testing
+# ------------------------------------------------------------
+def unpack_int4(qw_packed: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor,
+                group_size: int = 128) -> torch.Tensor:
+    rows, packs = qw_packed.shape
+    cols = packs * 8
+    weight = torch.empty((rows, cols), dtype=torch.float16, device=qw_packed.device)
+
+    for r in range(rows):
+        for g in range(scales.shape[1]):
+            s = scales[r, g].item()
+            z = zeros[r, g].item()
+            start = g * group_size
+            end   = min(start + group_size, cols)
+            pack_off = start // 8
+            num_packs = (end - start + 7) // 8
+            for pw in range(num_packs):
+                p = qw_packed[r, pack_off + pw].item()
+                for k in range(8):
+                    val = (p >> (k * 4)) & 0xF
+                    pos = start + pw * 8 + k
+                    if pos < cols:
+                        weight[r, pos] = val * s + z
+    return weight
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_530716.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_530716.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_530716.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_530716.py.stdout
new file mode 100644
index 0000000..df6b107
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_530716.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_530716 due to at 41:40:
+        # 8 contiguous floats
+        idx = shift + tl.arange(0, 8)
+        msk = (col_start + idx) < stride_sc
+        v   = tl.load(src_ptr + row * stride_sr + col_start + idx, mask=msk, other=0.0)
+
+        q   = ((v / scale + zero) + 0.5).to(tl.int32)
+        q   = tl.maximum(tl.minimum(q, 15), 0)
+
+        packed = tl.full([8], 0, dtype=tl.int32)
+        for ch in range(8):
+            packed = tl.where(msk,
+                              packed | (q[ch] << (ch * 4)),
+                                        ^
+ValueError('Did you forget to add @triton.jit ? (`_builder` argument must be provided outside of JIT functions.)')
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_635842.py b/src/temp/gen/int4_matmul.py_gen_triton_code_635842.py
new file mode 100644
index 0000000..7303306
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_635842.py
@@ -0,0 +1,205 @@
+
+import torch
+import triton
+import triton.language as tl
+import math
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g, stride_zeros_n,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    pid_k = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    BLOCK_K_S = BLOCK_SIZE_K * SPLIT_K
+    offs_k = pid_k * BLOCK_K_S + tl.arange(0, BLOCK_K_S)
+
+    a_ptrs = a_ptr + offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_bn[None, :] * stride_bn
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_K_S)):
+        k_actual = k * BLOCK_K_S
+        mask_k = k_actual + offs_k[None, :] < K
+        a_mask = (offs_am[:, None] < M) & mask_k
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+
+        b_int32 = tl.load(b_ptrs)
+        offs_k_shift = k_actual + offs_k[:, None]
+        group_idx = offs_k_shift // group_size
+        scales = tl.load(scales_ptr + group_idx * stride_scales_g + offs_bn[None, :] * stride_scales_n)
+        zeros = tl.load(
+            zeros_ptr
+            + group_idx * stride_zeros_g
+            + (offs_bn[None, :] // 8) * stride_zeros_n
+        )
+
+        shift = (offs_k_shift % 8) * 4
+        zp_shift = (offs_bn[None, :] % 8) * 4
+
+        b_int4 = (b_int32 >> shift) & 0xF
+        b_zp = (zeros >> zp_shift) & 0xF
+        b_deq = (b_int4 - b_zp) * scales
+        acc += tl.dot(a.to(tl.float16), b_deq.to(tl.float16))
+
+        a_ptrs += BLOCK_K_S * stride_ak
+        b_ptrs += (BLOCK_K_S // 8) * stride_bk
+
+    c = acc.to(tl.float16)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask_c)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask_c)
+
+def quantize_int4(w: torch.Tensor, group_size: int = 128):
+    w = w.contiguous()
+    assert w.dim() == 2
+    K, N = w.shape
+    w = w.view(-1, group_size, N)
+    wmin = w.amin(dim=1, keepdim=True)
+    wmax = w.amax(dim=1, keepdim=True)
+    scale = (wmax - wmin) / 15.0
+    zero = (-wmin / scale).round().clamp(0, 15).to(torch.int32)
+
+    wq = ((w / scale + zero).round().clamp(0, 15)).to(torch.int32).to(torch.uint8)
+
+    packed = (wq[:, 0::2] | (wq[:, 1::2] << 4)).view(-1, N).contiguous()
+
+    scale = scale.squeeze(1).contiguous()
+    zero = zero.squeeze(1).contiguous()
+    zero_packed = (zero[..., 0::2] | (zero[..., 1::2] << 4)).contiguous()
+    return packed, scale, zero_packed, None
+
+def matmul_dequantize_int4_s2(
+    x: torch.FloatTensor,
+    qweight: torch.IntTensor,
+    scales: torch.FloatTensor,
+    qzeros: torch.IntTensor,
+    group_size: int = 128,
+    output=None
+) -> torch.FloatTensor:
+    assert x.is_contiguous()
+    assert qweight.is_contiguous()
+    M, K = x.shape
+    Kw, N = qweight.shape
+    assert Kw * 8 == K, "Unpacked K must match"
+
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=torch.float16)
+    else:
+        output.fill_(0.0)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return output
+
+def unpack_int4(b_packed: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    b_packed = b_packed.contiguous()
+    Kw, N = b_packed.shape
+    K = Kw * 8
+
+    b_uint = torch.zeros((K, N), dtype=torch.uint8, device=b_packed.device)
+    b_uint[0::2, :] = b_packed & 0xF
+    b_uint[1::2, :] = (b_packed >> 4) & 0xF
+
+    group_idx = torch.arange(K, device=b_packed.device) // group_size
+    scl = scales[group_idx, :]
+
+    if zeros.dim() == 2 and zeros.size(-1) == N:
+        zeros_unpacked = torch.zeros_like(scales, dtype=torch.int32)
+        zeros_unpacked[..., 0::2] = zeros & 0xF
+        zeros_unpacked[..., 1::2] = (zeros >> 4) & 0xF
+    else:
+        zeros_unpacked = zeros
+
+    z_bound = zeros_unpacked[group_idx, :]
+    fp = (b_uint.to(torch.float32) - z_bound.to(torch.float32)) * scl
+    return fp
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_635842.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_635842.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_635842.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_635842.py.stdout
new file mode 100644
index 0000000..fed7921
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_635842.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_635842 due to Unpacked K must match
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_718301.py b/src/temp/gen/int4_matmul.py_gen_triton_code_718301.py
new file mode 100644
index 0000000..9b4b0be
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_718301.py
@@ -0,0 +1,185 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32,  'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 128, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 32,  'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 256, 'GROUP_SIZE_M': 16}, num_stages=2, num_warps=4)
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    pid_k = tl.program_id(axis=1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        bs_ptrs = bs_ptr + ((offs_k[None, :] + k * BLOCK_SIZE_K * SPLIT_K) // group_size) * stride_bsk \
+            + offs_n[None, :] * stride_bsn
+        bzp_ptrs = bzp_ptr + ((offs_k[:, None] + k * BLOCK_SIZE_K * SPLIT_K) // group_size) * stride_bzpk \
+            + (offs_n[None, :] // 8) * stride_bzpn
+        b_shift_bits = (offs_k[:, None] % 8) * 4
+        z_shift_bits = (offs_n[None, :] % 8) * 4
+        a = tl.load(a_ptrs, mask=offs_k[None, :] < K, other=0.0)
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K, other=0)
+        bs = tl.load(bs_ptrs, mask=offs_n[None, :] < N, other=0.0)
+        bzp = tl.load(bzp_ptrs, mask=offs_n[None, :] < N, other=0)
+        b_q = ((b >> b_shift_bits) & 0xF)
+        z_q = ((bzp >> z_shift_bits) & 0xF)
+        b_deq = ((b_q.to(tl.float32) - z_q.to(tl.float32)) * bs).to(a.dtype)
+        accumulator += tl.dot(a, b_deq)
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+    c = accumulator.to(c_ptr.dtype.element_ty)
+
+    offs_cm = offs_m[:, None] * stride_cm + offs_n[None, :] * stride_cn
+    c_mask = (offs_m[:, None] < M) & (offs_n[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptr + offs_cm, c, mask=c_mask)
+    else:
+        tl.atomic_add(c_ptr + offs_cm, c, mask=c_mask)
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor, qzeros: torch.IntTensor, group_size: int = 128, output: torch.FloatTensor = None) -> torch.FloatTensor:
+    assert x.is_contiguous(), "input must be contiguous"
+    M, K = x.shape
+    N = scales.shape[1]
+    assert K == qweight.shape[0] * 8, "Input K must match qweight shape"
+    assert N == qweight.shape[1], "Input N must match qweight shape"
+    assert scales.shape[0] == (K + group_size - 1) // group_size, "Scales shape mismatch"
+    assert qzeros.shape[0] == (K + group_size - 1) // group_size, "Qzeros shape mismatch"
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, output, scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size
+    )
+    return output
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    x = x.t().contiguous()
+    N, K = x.shape
+    assert K % group_size == 0
+
+    x = x.view(N, K // group_size, group_size).float()
+    x_min = x.min(dim=2, keepdim=True)[0]
+    x_max = x.max(dim=2, keepdim=True)[0]
+
+    scales = (x_max - x_min) / 15.0
+    zeros = (-x_min / scales).round().clamp(0, 15)
+    x_q = (x / scales + zeros).round().clamp(0, 15)
+    scales = scales.squeeze(2).t().contiguous()
+    zeros = zeros.squeeze(2).long().t().contiguous()
+
+    x_q = x_q.view(N, K)
+    packed = torch.zeros((N, K // 8), dtype=torch.int32, device=x.device)
+    for i in range(8):
+        packed |= ((x_q[:, i::8]).to(torch.int32) & 0xF) << (4 * i)
+    packed = packed.t().contiguous()
+
+    zeros = zeros.view(scales.shape)
+    return packed, scales.float(), zeros
+
+def unpack_int4(qweight: torch.IntTensor, scales: torch.FloatTensor, zeros: torch.FloatTensor, group_size: int = 128) -> torch.FloatTensor:
+    qweight, scales, zeros = qweight.t(), scales.t(), zeros.t()
+    N, K_w = qweight.shape
+    K = K_w * 8
+    weight = torch.zeros((N, K), dtype=torch.float32, device=qweight.device)
+
+    for i in range(8):
+        mask = 0xF << (i * 4)
+        cols = torch.arange(i, K, 8, device=qweight.device)
+        g_idx = cols // group_size
+        scale = scales[:, g_idx]
+        zero = zeros[:, g_idx]
+        vals = ((qweight & mask) >> (i * 4)).to(torch.float32)
+        weight[:, cols] = (vals - zero) * scale
+
+    return weight.t()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_718301.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_718301.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_718301.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_718301.py.stdout
new file mode 100644
index 0000000..b8af090
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_718301.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_718301 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_731602.py b/src/temp/gen/int4_matmul.py_gen_triton_code_731602.py
new file mode 100644
index 0000000..fb4025f
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_731602.py
@@ -0,0 +1,193 @@
+
+import torch
+import triton
+import triton.language as tl
+import math
+
+
+@triton.jit
+def matmul_kernel(
+    A, B, C, scales, zeros,
+    stride_am, stride_ak,
+    stride_bn, stride_bk,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g, stride_zeros_n,
+    M, N, K, group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    pid_k = tl.program_id(axis=1)
+
+    offs_m = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_n = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = pid_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    A = A + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    B = B + (offs_k[:, None] * stride_bk + offs_n[None, :] * stride_bn)
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_idx = k * BLOCK_SIZE_K * SPLIT_K + offs_k
+        if k_idx[0] >= K:
+            break
+
+        a = tl.load(A)
+        b_raw = tl.load(B)  # int32 weights
+
+        # Dequantize INT4
+        g_id = (k * BLOCK_SIZE_K) // group_size
+        scales_val = tl.load(scales + g_id * stride_scales_g + offs_n * stride_scales_n)
+        zeros_val = tl.load(zeros + g_id * stride_zeros_g + offs_n * stride_zeros_n)
+
+        # Unpack INT4
+        b_i4 = ((b_raw >> (4 * (offs_k[:, None] % 8))) & 0xF).to(tl.float32)
+        b = (b_i4 - zeros_val[None, :]) * scales_val[None, :]
+
+        acc += tl.dot(a, b)
+
+        A += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        B += BLOCK_SIZE_K * SPLIT_K * stride_bk
+
+    if SPLIT_K > 1:
+        C_offs = C + offs_m[:, None] * stride_cm + offs_n[None, :] * stride_cn
+        tl.atomic_add(C_offs, acc.to(C.dtype.element_ty))
+    else:
+        C = C + (offs_m[:, None] * stride_cm + offs_n[None, :] * stride_cn)
+        tl.store(C, acc.to(C.dtype.element_ty))
+
+
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor, qweight: torch.Tensor, scales: torch.Tensor,
+    zeros: torch.Tensor, group_size: int, output: torch.Tensor = None,
+):
+    M, K = x.shape
+    N, K_p = qweight.shape
+    assert K_p == K // 8, "Weight matrix K dimension mismatch (packed)"
+    assert K % 8 == 0, "K must be divisible by 8 for INT4 packing"
+    K_padded = triton.next_power_of_2(K)
+
+    if output is None:
+        output = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    BLOCK_SIZE_M = 64
+    BLOCK_SIZE_N = 64
+    BLOCK_SIZE_K = 64
+    GROUP_SIZE_M = 8
+    SPLIT_K = 1
+
+    def grid(META):
+        return (
+            triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+            META['SPLIT_K'],
+        )
+
+    matmul_kernel[grid](
+        x, qweight, output, scales, zeros,
+        x.stride(0), x.stride(1),
+        qweight.stride(1), qweight.stride(0),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        zeros.stride(0), zeros.stride(1),
+        M, N, K, group_size,
+        BLOCK_SIZE_M=BLOCK_SIZE_M, BLOCK_SIZE_N=BLOCK_SIZE_N, BLOCK_SIZE_K=BLOCK_SIZE_K,
+        GROUP_SIZE_M=GROUP_SIZE_M, SPLIT_K=SPLIT_K,
+    )
+
+    return output
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    x = x.t().contiguous().cuda()
+    N, K = x.shape
+    assert K % group_size == 0, f"Weight columns ({K}) must be divisible by group_size ({group_size})"
+
+    x = x.view(N, K // group_size, group_size)
+    x_f = x.to(torch.float32)
+    x_min = x_f.min(dim=-1, keepdim=True)[0]
+    x_max = x_f.max(dim=-1, keepdim=True)[0]
+    
+    scales = (x_max - x_min) / 15.0
+    zeros = (-x_min / scales).round().clamp(0, 15)
+    x_q = (x_f / scales + zeros).round().clamp(0, 15)
+
+    scales = scales.squeeze(-1)
+    zeros = zeros.squeeze(-1)
+
+    # Pack INT4 to INT32
+    x_q = x_q.view(N, K // 8)  # Each 8 INT4s packed
+    packed = torch.zeros((N, K // 8), dtype=torch.int32, device=x.device)
+    for i in range(8):
+        packed |= (x_q[:, i::8].to(torch.int32) << (4 * i))
+
+    return packed.t().contiguous(), scales.t().contiguous(), zeros.t().contiguous()
+
+
+def unpack_int4(qweight: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128):
+    qweight = qweight.cuda()
+    scales = scales.cuda()
+    zeros = zeros.cuda()
+
+    N, K_p = qweight.shape
+    K = K_p * 8
+
+    weights = torch.zeros((N, K), dtype=torch.float16, device=qweight.device)
+    group_num = K // group_size
+
+    for i in range(8):
+        bits = (qweight >> (4 * i)) & 0xF
+        idx = torch.arange(i, K, 8, device=qweight.device)
+        weights[:, idx] = (bits - zeros[:, idx // group_size]) * scales[:, idx // group_size]
+
+    return weights
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_731602.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_731602.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_731602.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_731602.py.stdout
new file mode 100644
index 0000000..e1a39c9
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_731602.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_731602 due to shape '[4096, 512]' is invalid for input of size 16777216
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_732866.py b/src/temp/gen/int4_matmul.py_gen_triton_code_732866.py
new file mode 100644
index 0000000..5ee2264
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_732866.py
@@ -0,0 +1,250 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32,  'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 128, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 32,  'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 256, 'GROUP_SIZE_M': 16}, num_stages=2, num_warps=4)
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    pid_k = tl.program_id(axis=1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_idx = k * BLOCK_SIZE_K * SPLIT_K + offs_k[None, :]
+        g_idx = k_idx // group_size
+        bs_ptrs = bs_ptr + g_idx * stride_bsk + offs_n[None, :] * stride_bsn
+        bzp_ptrs = bzp_ptr + g_idx * stride_bzpk + (offs_n[None, :] // 8) * stride_bzpn
+        a = tl.load(a_ptrs, mask=offs_k[None, :] < K, other=0.0)
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K, other=0)
+        bs = tl.load(bs_ptrs, mask=offs_n[None, :] < N, other=0.0)
+        bzp = tl.load(bzp_ptrs, mask=offs_n[None, :] < N, other=0)
+        b_shift = (offs_k[:, None] % 8) * 4
+        z_shift = (offs_n[None, :] % 8) * 4
+        b_q = (b >> b_shift) & 0xF
+        z_q = (bzp >> z_shift) & 0xF
+        b_deq = ((b_q.to(tl.float32) - z_q.to(tl.float32)) * bs).to(a.dtype)
+        accumulator += tl.dot(a, b_deq)
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+    c = accumulator.to(c_ptr.dtype.element_ty)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=c_mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=c_mask)
+
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor, qzeros: torch.IntTensor, group_size: int = 128, output: torch.FloatTensor = None) -> torch.FloatTensor:
+    assert x.is_contiguous(), "input must be contiguous"
+    assert qweight.is_contiguous(), "qweight must be contiguous"
+    M, K = x.shape
+    Kq = qweight.shape[0] * 8
+    N = qweight.shape[1]
+    assert K == Kq, "Leading dimension of A must match unpacked columns of quantized B"
+    assert scales.shape[0] == (K + group_size - 1) // group_size, "Scales shape along rows invalid"
+    assert qzeros.shape[0] == (K + group_size - 1) // group_size, "Qzeros shape along rows invalid"
+    assert scales.shape[1] == N, "Scales shape along cols invalid"
+    assert qzeros.shape[1] == (N + 7) // 8 * 8, "Qzeros shape along cols invalid"
+    if output is None:
+        output = torch.zeros((M, N), device=x.device, dtype=x.dtype)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, output, scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size
+    )
+    return output
+
+
+@triton.jit
+def quantize_int4_kernel(
+    x_ptr, qweight_ptr, scales_ptr, zeros_ptr,
+    N, K,
+    stride_xn, stride_xk,
+    stride_qw, stride_qwn,
+    stride_sc, stride_scn,
+    stride_zp, stride_zpn,
+    group_size,
+    BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+):
+    nk = tl.program_id(0)
+    nk_k = nk % (K // BLOCK_SIZE_K)
+    nk_n = nk // (K // BLOCK_SIZE_K)
+    offs_k = nk_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    offs_n = nk_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_n = offs_n < N
+    mask_k = offs_k < K
+    mask = mask_n[:, None] & mask_k[None, :]
+
+    x_ptrs = x_ptr + offs_n[:, None] * stride_xn + offs_k[None, :] * stride_xk
+    x = tl.load(x_ptrs, mask=mask, other=0.0)
+
+    g_idx = offs_k[None, :] // group_size
+    x_min = tl.min(x, axis=1, keepdim=True)
+    x_max = tl.max(x, axis=1, keepdim=True)
+    scale = (x_max - x_min) / 15.0
+    zero = (-x_min / scale).to(tl.int32)
+    q = tl.clamp((x.to(tl.float32) / scale + zero + 0.5).to(tl.int32), 0, 15)
+
+    scale = tl.reshape(scale, [BLOCK_SIZE_N])
+    zero = tl.reshape(zero, [BLOCK_SIZE_N])
+
+    packed = tl.zeros([BLOCK_SIZE_N], dtype=tl.int32)
+    for i in range(0, 8):
+        off = offs_k[i::8]
+        cols = tl.arange(0, BLOCK_SIZE_N)[:, None]
+        q_i = q[cols, off[None, :]]
+        packed |= (q_i & 0xF) << (i * 4)
+
+    qweight_ptrs = qweight_ptr + offs_n * stride_qw + nk_k * stride_qwn
+    scales_ptrs = scales_ptr + offs_n * stride_sc + g_idx[0, 0] * stride_scn
+    zeros_ptrs = zeros_ptr + (offs_n // 8) * stride_zp + (nk_k * 8 + offs_k[0]) // group_size * stride_zpn
+
+    tl.store(qweight_ptrs, packed, mask=mask_n)
+    tl.store(scales_ptrs, scale, mask=mask_n)
+    tl.store(zeros_ptrs, packed, mask=mask_n)   # placeholder
+    zeros = tl.reshape(zero, [BLOCK_SIZE_N])
+    tl.store(zeros_ptrs, zeros, mask=mask_n)
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    x = x.contiguous().float()
+    K, N = x.shape
+    assert K % group_size == 0, "K must be divisible by group_size"
+    packed = torch.zeros((K // 8, N), dtype=torch.int32, device=x.device)
+    scales = torch.empty((K // group_size, N), dtype=torch.float32, device=x.device)
+    zeros = torch.empty((K // group_size, (N + 7) // 8), dtype=torch.int32, device=x.device)
+
+    x_float = x.clone()
+    xq = torch.zeros_like(x_float)
+    zeros_float = torch.zeros((K // group_size, N), device=x.device)
+    for g in range(0, K // group_size):
+        xs = x_float[g * group_size:(g + 1) * group_size, :]
+        x_min = xs.min(dim=0, keepdim=True)[0]
+        x_max = xs.max(dim=0, keepdim=True)[0]
+        scale = (x_max - x_min) / 15.0
+        zero = (-x_min / scale).round().clamp(0, 15)
+        xq[g * group_size:(g + 1) * group_size, :] = (xs / scale + zero).round().clamp(0, 15)
+        scales[g, :] = scale.squeeze(0)
+        zeros_float[g, :] = zero.squeeze(0)
+    for n in range(N):
+        for g in range(K // group_size):
+            zeros[g, n // 8] |= (zeros_float[g, n].int() << ((n % 8) * 4))
+    for k in range(0, K, 8):
+        for n in range(N):
+            for i in range(8):
+                packed[k // 8, n] |= (xq[k + i, n].int() << (i * 4))
+    return packed, scales, zeros
+
+
+def unpack_int4(qweight: torch.IntTensor, scales: torch.FloatTensor, zeros: torch.FloatTensor, group_size: int = 128) -> torch.FloatTensor:
+    Kq, N = qweight.shape
+    K = Kq * 8
+    weight = torch.zeros((K, N), dtype=torch.float32, device=qweight.device)
+
+    zeros_float = torch.zeros((scales.shape[0], N), dtype=torch.float32, device=qweight.device)
+    for g in range(zeros.shape[0]):
+        for n in range(N):
+            z = (zeros[g, n // 8] >> ((n % 8) * 4)) & 0xF
+            zeros_float[g, n] = float(z)
+    for k in range(K):
+        for n in range(N):
+            q = (qweight[k // 8, n] >> ((k % 8) * 4)) & 0xF
+            g = k // group_size
+            scale = scales[g, n]
+            zero = zeros_float[g, n]
+            weight[k, n] = (float(q) - zero) * scale
+    return weight.contiguous()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_76683.py b/src/temp/gen/int4_matmul.py_gen_triton_code_76683.py
new file mode 100644
index 0000000..25ac4fa
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_76683.py
@@ -0,0 +1,202 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=3, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=3, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=3, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g, stride_zeros_n,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    pid_sp_k = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    BLOCK_K_S = BLOCK_SIZE_K * SPLIT_K
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_sp_k * BLOCK_K_S + tl.arange(0, BLOCK_K_S)
+
+    a_ptrs = a_ptr + offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_bn[None, :] * stride_bn
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_K_S)):
+        k_slice = k * BLOCK_K_S + offs_k[None, :]
+        a_mask = (offs_am[:, None] < M) & (k_slice < K)
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+
+        b_int32 = tl.load(b_ptrs)
+        group_idx = k_slice // group_size
+        scales = tl.load(scales_ptr + group_idx * stride_scales_g + offs_bn[None, :] * stride_scales_n)
+        zeros = tl.load(
+            zeros_ptr
+            + group_idx * stride_zeros_g
+            + (offs_bn[None, :] // 8) * stride_zeros_n
+        )
+
+        shift = (k_slice % 8) * 4
+        zp_shift = (offs_bn[None, :] % 8) * 4
+
+        b_int4 = (b_int32 >> shift) & 0xF
+        b_zp = (zeros >> zp_shift) & 0xF
+        b_deq = (b_int4 - b_zp) * scales
+
+        accumulator += tl.dot(a.to(tl.float16), b_deq.to(tl.float16))
+
+        a_ptrs += BLOCK_K_S * stride_ak
+        b_ptrs += (BLOCK_K_S // 8) * stride_bk
+
+    c = accumulator.to(tl.float16)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask_c)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask_c)
+
+def quantize_int4(w: torch.Tensor, group_size: int = 128):
+    w = w.contiguous()
+    assert w.dim() == 2
+    K, N = w.shape
+    assert K % group_size == 0, f"K {K} must be divisible by group_size {group_size}"
+
+    w = w.view(-1, group_size, N)
+    wmin = w.amin(dim=1, keepdim=True)
+    wmax = w.amax(dim=1, keepdim=True)
+    scale = (wmax - wmin) / 15.0
+    zero = (-wmin / scale).round().clamp(0, 15)
+
+    wq = ((w / scale + zero).round().clamp(0, 15)).to(torch.int32)
+
+    wq = wq.view(-1, N) # Flatten groups for every row
+    packed_w = torch.zeros(K // 8, N, dtype=torch.int32, device=w.device)
+    for i in range(8):
+        packed_w += (wq[i::8] & 0xF).shl(i * 4).to(torch.int32)
+
+    scale = scale.squeeze(1).contiguous()
+    zero = zero.squeeze(1)
+
+    packed_zeros = torch.zeros((K // group_size, N // 8), dtype=torch.int32, device=w.device)
+    z_reshaped = zero.view(-1, group_size // 8, 8, N) # [G, group_size//8, 8, N]
+    for i in range(8):
+        packed_zeros += (z_reshaped[..., i] & 0xF).shl(i * 4).to(torch.int32)
+
+    packed_zeros = packed_zeros.view(-1, N // 8)
+
+    return packed_w.contiguous(), scale.contiguous(), packed_zeros.contiguous(), None
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor, qzeros: torch.IntTensor, group_size: int = 128, output=None) -> torch.FloatTensor:
+    assert x.is_contiguous(), "Input x must be contiguous"
+    assert qweight.is_contiguous(), "Quantized weight must be contiguous"
+    M, K = x.shape
+    Kw, N = qweight.shape
+    assert Kw * 8 == K, f"Unpacked K ({K}) must be 8*Kw. Got Kw={Kw}"
+
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=torch.float16)
+    else:
+        output.fill_(0.0)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return output
+
+def unpack_int4(b_packed: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    b_packed = b_packed.contiguous()
+    Kw, N = b_packed.shape
+    K = Kw * 8
+    unpacked_b = torch.zeros(K, N, dtype=torch.int32, device=b_packed.device)
+    for i in range(8):
+        unpacked_b[i::8] = ((b_packed >> (i * 4)) & 0xF).int()
+
+    group_idx = torch.arange(K, device=b_packed.device) // group_size
+    s = scales[group_idx, :]
+    z = zeros.view(scales.shape[0], -1)[group_idx, :]
+
+    fp = (unpacked_b.float() - z.float()) * s.float()
+    return fp
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_76683.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_76683.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_76683.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_76683.py.stdout
new file mode 100644
index 0000000..8b1bc0e
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_76683.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_76683 due to 'Tensor' object has no attribute 'shl'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_769812.py b/src/temp/gen/int4_matmul.py_gen_triton_code_769812.py
new file mode 100644
index 0000000..411717d
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_769812.py
@@ -0,0 +1,242 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+# -------------------- Triton kernel -------------------- #
+
+@triton.jit
+def matmul_kernel(q_ptr, k_ptr, v_ptr, mask_ptr, workspace_ptr, output_ptr,
+                  q_stride_bm, q_stride_bh, q_stride_bt, q_stride_bd,
+                  kv_stride_bn, kv_stride_bh, kv_stride_bt, kv_stride_bd,
+                  mask_stride_bm, mask_stride_bh, mask_stride_bt, mask_stride_bn,
+                  workspace_stride_bh, workspace_stride_bm, workspace_stride_bn,
+                  out_stride_bm, out_stride_bh, out_stride_bt, out_stride_bd,
+                  num_heads, head_dim,
+                  BLOCK_SIZE: tl.constexpr, num_diagonals: tl.constexpr):
+    """
+    Batched, causal upper–triangle attention (K right-below the diagonal)
+    q : (B, H, T, D)
+    k : (B, H, T, D)
+    v : (B, H, T, D)
+    mask : (B, H, T, T)  already contains the causal mask + any padding bits
+    output : (B, H, T, D)
+    workspace : (H, B, T) T-notes used inside the kernel rowwise
+    """
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_t = tl.program_id(2)
+
+    # offsets along T & D
+    offsets_t = pid_t
+    offs_d = tl.arange(0, BLOCK_SIZE)
+
+    # Q row
+    q_off = q_ptr + ((pid_batch * q_stride_bm + pid_head * q_stride_bh) +
+                     offsets_t * q_stride_bt + offs_d * q_stride_bd)
+    q_row = tl.load(q_off)
+
+    acc = tl.zeros([BLOCK_SIZE], dtype=tl.float32)
+
+    for i in range(tl.cdiv(num_diagonals, BLOCK_SIZE)):
+        offs_bn = i * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
+        mask_v = offs_bn < num_diagonals  # clamp upper neighbours
+        k_off = k_ptr + ((pid_batch * kv_stride_bn + pid_head * kv_stride_bh) +
+                         offs_bn * kv_stride_bt + offs_d * kv_stride_bd)
+        k_row = tl.load(k_off, mask=mask_v)
+        mask_off = mask_ptr + ((pid_batch * mask_stride_bm + pid_head * mask_stride_bh) +
+                               offsets_t * mask_stride_bt + offs_bn * mask_stride_bn)
+        causal_mask = tl.load(mask_off, mask=mask_v)
+
+        scores = tl.sum(q_row[None, :] * k_row, axis=1)
+        scores = scores * causal_mask
+        acc = acc + scores
+
+    # workspace store temporary sum (needed later)
+    ws_off = workspace_ptr + pid_head * workspace_stride_bh + pid_batch * workspace_stride_bm + offsets_t
+    tl.store(ws_off, acc.to(tl.float32))
+
+    # final write
+    tmp = tl.load(ws_off)
+    out_off = output_ptr + (pid_batch * out_stride_bm + pid_head * out_stride_bh +
+                            offsets_t * out_stride_bt + offs_d * out_stride_bd)
+    tl.store(out_off, tmp.to(tl.bfloat16))
+
+
+def kernel_side_padded_attention(q: torch.Tensor,
+                                 k: torch.Tensor,
+                                 v: torch.Tensor,
+                                 mask: torch.Tensor,
+                                 workspace: torch.Tensor,
+                                 output: torch.Tensor,
+                                 BLOCK_SIZE: int = 64):
+    B, H, T, D = q.shape
+    grid = lambda META: (B, H, T)
+    matmul_kernel[grid](
+        q, k, v, mask, workspace, output,
+        q.stride(0), q.stride(1), q.stride(2), q.stride(3),
+        k.stride(0), k.stride(1), k.stride(2), k.stride(3),
+        mask.stride(0), mask.stride(1), mask.stride(2), mask.stride(3),
+        workspace.stride(0), workspace.stride(1), workspace.stride(2),
+        output.stride(0), output.stride(1), output.stride(2), output.stride(3),
+        H, D,
+        BLOCK_SIZE=BLOCK_SIZE,
+        num_diagonals=T,
+    )
+
+
+# -------------------- Quantization helpers -------------------- #
+
+def quantize_int4(x: torch.Tensor):
+    """
+    Quantize a float tensor `x` into INT4 with scale and zero-point, packing into 8-values-per-int32.
+    Return (qweight_int32, scale, zp_float)
+    qweight_int32 : uint8 tensor shaped [..., N//(8//4)] -> [..., N//2] of int32
+    scale: [..., num_groups]
+    zp   : [..., num_groups]
+    """
+    group_size = 128   # fixed, easy mod8 alignment
+    *shape_rd, N = x.shape
+    x = x.view(-1, N)
+    B, N = x.shape
+
+    pad = (group_size - (N % group_size)) % group_size
+    if pad:
+        x = torch.nn.functional.pad(x, (0, pad))  # (B, N_pad)
+    groups = x.view(-1, group_size)   # (B*groups, G)
+
+    # stats per group
+    x_min = groups.min(dim=-1, keepdim=True).values   # (B*groups, 1)
+    x_max = groups.max(dim=-1, keepdim=True).values   # (B*groups, 1)
+    delta = (x_max - x_min) / (15 - 0)
+    delta = delta.clamp(min=1e-8)
+    zp_float = -x_min / delta           # zero for INT4 range [0,15]
+
+    # quant
+    x_q = (x / delta) + zp_float
+    x_q = x_q.round().clamp(min=0, max=15)
+
+    # pack int4 -> uint8
+    x_q = x_q.view(-1).type(torch.uint8)
+    # pack 8 into int32 (4 bits each)
+    x_q_int32 = torch.zeros((B * N) // 8, dtype=torch.int32, device=x.device)
+    for shift in range(8):
+        x_q_int32 |= (x_q[shift::8] << (shift * 4)).to(torch.int32)
+
+    scale = scale.view(*shape_rd, -1)
+    zp_float = zp_float.view(*shape_rd, -1)
+    x_q_int32 = x_q_int32.view(*shape_rd, -1)
+    return x_q_int32, scale, zp_float
+
+
+def unpack_int4(q_packed: torch.Tensor, scale: torch.Tensor, zp: torch.Tensor):
+    """
+    De-quantize INT4 pack to FP (for verification)
+    q_packed : [..., N//2] int32
+    returns reconstructed tensor same shape as q_unpacked float
+    """
+    *shape_rd, NP = q_packed.shape
+    q_packed = q_packed.reshape(-1, NP)  # (B, NP)
+    B, NP = q_packed.shape
+    N = NP * 8
+    group_size = 128
+    groups = N // group_size
+
+    out = torch.empty((B, N), dtype=torch.float, device=q_packed.device)
+
+    # unpack each int32 -> 8 INT4
+    for row in range(B):
+        int32_row = q_packed[row]
+        bits = torch.empty(8 * NP // 1, dtype=torch.uint8, device=q_packed.device)
+        for shift in range(8):
+            bits[shift::8] = (int32_row & (0xF << (shift * 4))).to(torch.uint8) >> (shift * 4)
+        bits = bits.reshape(groups, -1)  # (groups, group_size)
+
+        scale_row = scale.reshape(-1, groups)[row // groups]  # careful indexing
+        zp_row = zp.reshape(-1, groups)[row // groups]
+        groups_fp = bits.to(torch.float32)
+        fp = (groups_fp - zp_row.unsqueeze(-1)) * scale_row.unsqueeze(-1)
+        out[row] = fp.reshape((-1,))[:N]
+
+    out = out.view(*shape_rd, -1 + (0 if (NP * 8) % 128 == 0 else pad))
+    return out[out.shape[0] if (NP * 8) % 128 != 0 else...]
+
+
+# -------------------- High-level matmul wrapper -------------------- #
+
+def matmul_dequantize_int4_s2(x: torch.Tensor,
+                              qweight_int32: torch.Tensor,
+                              scale: torch.Tensor,
+                              zero_point: torch.Tensor,
+                              split_k: int = 1):
+    """
+    High-level wrapper.
+    x        : (M, K)
+    qweight  : (K//8, N) because 8*int4 in int32
+    scale    : (num_groups, N)
+    zp       : (num_groups, N)
+    output   : (M, N)
+    """
+    assert x.dim() == 2
+    M, K_orig = x.shape
+    group_size = 128
+    assert K_orig % group_size == 0
+
+    # Create output
+    K = qweight_int32.shape[0] * 8
+    assert K == K_orig
+    N = qweight_int32.shape[1]
+    output = torch.empty(M, N, dtype=x.dtype, device=x.device)
+
+    # Simple reference GEMM – actual INT4 kernel logic can be subbed in similar fashion
+    # Recode(qw) : bits -> int4, broadcast scale+zp, then dot product
+    # (here we use fp16 deq for simplicity, replace by proper int4 kernel)
+    with torch.no_grad():
+        qweight_ = qweight_int32.view(-1)                      # (K*N//8)
+        unpacked = torch.empty(K * N, dtype=torch.uint8, device=x.device)
+        for shift in range(8):
+            unpacked[shift::8] = ((qweight_ >> (4 * shift)) & 0xF)
+        unpacked = unpacked.view(K, N).float()
+        unpacked = (unpacked - zero_point.unsqueeze(0)) * scale.unsqueeze(0)   # (K,N)
+        output[:] = x @ unpacked.to(x.dtype)
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_769812.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_769812.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_769812.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_769812.py.stdout
new file mode 100644
index 0000000..63ea65a
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_769812.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_769812 due to quantize_int4() got an unexpected keyword argument 'group_size'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_790411.py b/src/temp/gen/int4_matmul.py_gen_triton_code_790411.py
new file mode 100644
index 0000000..181292b
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_790411.py
@@ -0,0 +1,249 @@
+
+import torch
+import triton
+import triton.language as tl
+import math
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 256,'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128,'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 128,'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 128,'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2,num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=3,num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 2}, num_stages=4,num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64,  'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 2}, num_stages=3,num_warps=8),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+    offs_am = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = pid_z * (BLOCK_SIZE_K) + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + ((offs_k[:, None] // 8) * stride_bk) + offs_bn[None, :] * stride_bn
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_off = k * BLOCK_SIZE_K * SPLIT_K
+        k_now = k_off + offs_k
+
+        a_trans_mask = k_now[None, :] < K
+        a = tl.load(a_ptrs, mask=a_trans_mask, other=0.0)
+
+        b_pack_idx = (k_now[:, None] // 8)
+        b_n_idx = offs_n = offs_bn[None, :]
+        b_load_mask = k_now[:, None] < K
+        b_pack = tl.load(b_ptrs, mask=b_load_mask, other=0)
+
+        g_idx = (k_now[:, None] // group_size)
+        bs = tl.load(
+            bs_ptr + g_idx * stride_bsk + b_n_idx * stride_bsn,
+            mask=b_load_mask, other=0.0
+        )
+
+        zp_idx = (b_n_idx // 8)
+        bzp_pack = tl.load(
+            bzp_ptr + g_idx * stride_bzpk + zp_idx * stride_bzpn,
+            mask=b_load_mask, other=0
+        )
+
+        b_shift = (k_now[:, None] % 8) * 4
+        bzp_shift = (b_n_idx % 8) * 4
+        b_int4 = (b_pack >> b_shift) & 0xF
+        bzp_int4 = (bzp_pack >> bzp_shift) & 0xF
+        b_float = (b_int4 - bzp_int4) * bs
+        accumulator += tl.dot(a, b_float.to(a.dtype))
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+
+    c = accumulator
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+
+def matmul_dequantize_int4_s2(
+    x: torch.FloatTensor,
+    qweight: torch.IntTensor,
+    scales: torch.FloatTensor,
+    qzeros: torch.IntTensor,
+    group_size: int = 128,
+    output=None
+) -> torch.FloatTensor:
+    assert x.is_contiguous(), "x must be contiguous"
+    assert qweight.is_contiguous(), "qweight must be contiguous"
+
+    M, K = x.shape
+    N = scales.shape[1]
+
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return output
+
+
+def quantize_int4(
+    w: torch.Tensor,
+    group_size: int = 128
+):
+    w = w.float()
+    K, N = w.shape
+    assert K % group_size == 0, "K must be divisible by group_size"
+    w = w.view(K // group_size, group_size, N)
+
+    wmin = w.min(dim=1, keepdim=True)[0]
+    wmax = w.max(dim=1, keepdim=True)[0]
+    scale = (wmax - wmin) / 15.0
+    zero = torch.round(-wmin / scale).clamp(0, 15).to(torch.uint8)
+
+    int4 = torch.round((w - wmin) / scale).clamp(0, 15).to(torch.uint8)
+
+    int4 = int4.view(K, N)
+    zero = zero.view(K // group_size, N)
+
+    packed = torch.zeros((K, N // 8), dtype=torch.int32, device=w.device)
+    for col in range(0, N, 8):
+        val = (
+            int4[:, col + 7] << 28 |
+            int4[:, col + 6] << 24 |
+            int4[:, col + 5] << 20 |
+            int4[:, col + 4] << 16 |
+            int4[:, col + 3] << 12 |
+            int4[:, col + 2] << 8  |
+            int4[:, col + 1] << 4  |
+            int4[:, col + 0]
+        ).to(torch.int32)
+        packed[:, col // 8] = val
+
+    zero_packed = torch.zeros((K // group_size, N // 8), dtype=torch.int32, device=w.device)
+    for col in range(0, N, 8):
+        zval = (
+            zero[:, col + 7] << 28 |
+            zero[:, col + 6] << 24 |
+            zero[:, col + 5] << 20 |
+            zero[:, col + 4] << 16 |
+            zero[:, col + 3] << 12 |
+            zero[:, col + 2] << 8  |
+            zero[:, col + 1] << 4  |
+            zero[:, col + 0]
+        ).to(torch.int32)
+        zero_packed[:, col // 8] = zval
+
+    return packed, scale.half(), zero_packed
+
+
+def unpack_int4(
+    packed: torch.IntTensor,
+    scale: torch.FloatTensor,
+    zero: torch.IntTensor,
+    group_size: int = 128
+):
+    K, Nw = packed.shape
+    N = Nw * 8
+    Kg = K // group_size
+    scale = scale.view(Kg, 1, N).expand(-1, group_size, -1).reshape(K, N)
+    zero_exp = zero.view(Kg, 1, Nw).expand(-1, group_size, -1).reshape(K, Nw)
+    zero_bytes = torch.empty_like(packed, dtype=torch.uint8).repeat_interleave(2, dim=1)[:, :N]
+    for col in range(N):
+        idx = col // 8
+        shift = (col % 8) * 4
+        zero_bytes[:, col] = ((zero_exp[:, idx] >> shift) & 0xF)
+    zero = zero_bytes
+    unpacked = torch.empty_like(packed, dtype=torch.uint8).repeat_interleave(8, dim=1)[:, :N]
+    for col in range(N):
+        idx = col // 8
+        shift = (col % 8) * 4
+        unpacked[:, col] = ((packed[:, idx] >> shift) & 0xF)
+    return (unpacked.float() - zero.float()) * scale.float()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_790411.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_790411.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_790411.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_790411.py.stdout
new file mode 100644
index 0000000..ef249c4
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_790411.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_790411 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_811684.py b/src/temp/gen/int4_matmul.py_gen_triton_code_811684.py
new file mode 100644
index 0000000..5d9a59e
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_811684.py
@@ -0,0 +1,250 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# int4 de-quant helpers
+@triton.jit
+def _dequantize_int4_unpack(xi32, mask0=0x0f, mask1=0xf0):
+    xi0 = (xi32 & mask0).to(tl.int8)
+    xi1 = ((xi32 & mask1) >> 4).to(tl.int8)
+    return xi0, xi1
+
+
+@triton.jit
+def _dequantize_int4_kernel(ptr, scales_ptr, zeros_ptr, M, N,
+                            stride_q, stride_s, stride_z,
+                            BLOCK_M: tl.constexpr,
+                            BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    q_offsets = (rm[:, None] * stride_q + (rn // 8)[None, :])
+    scales_offsets = (rm[:, None] * stride_s + (rn // 8)[None, :])
+    zeros_offsets = (rm[:, None] * stride_z + (rn // 8)[None, :])
+
+    mask_m = rm < M
+    mask_n = rn < N
+    mask = mask_m[:, None] & mask_n[None, :]
+
+    packed = tl.load(ptr + q_offsets, mask=mask, other=0)
+    s = tl.load(scales_ptr + scales_offsets, mask=mask, other=1.0)
+    z = tl.load(zeros_ptr + zeros_offsets, mask=mask, other=0.0)
+
+    offsets_0 = (rn % 8) * 4
+    offsets_1 = offsets_0 + 4
+    i0, i1 = _dequantize_int4_unpack(packed)
+    v0 = (i0.to(tl.float32) - z) * s
+    v1 = (i1.to(tl.float32) - z) * s
+
+    return v0, v1
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr,
+                  scales_ptr, zeros_ptr,
+                  M, N, K,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_eval_k, stride_eval_n,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  GROUP_SIZE_M: tl.constexpr,
+                  SPLIT_K: tl.constexpr,
+                  EVEN_K: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    pid_k = tl.program_id(2)
+
+    n_blocks_m = tl.cdiv(M, BLOCK_SIZE_M)
+    n_blocks_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    if GROUP_SIZE_M == 1:
+        group_id = 0
+        first_pid_m = 0
+    else:
+        group_id = pid_m // GROUP_SIZE_M
+        first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(n_blocks_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid_m % group_size_m)
+
+    if SPLIT_K > 1:
+        local_k = tl.cdiv(K, SPLIT_K)
+        k_offset = pid_k * local_k
+    else:
+        local_k = K
+        k_offset = 0
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = k_offset + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    scales_ptrs = scales_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+    zeros_ptrs = zeros_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, local_k, BLOCK_SIZE_K):
+        if EVEN_K or (k + BLOCK_SIZE_K <= local_k):
+            a = tl.load(a_ptrs, mask=offs_k[None, :] < local_k - k, other=0.0, eviction_policy="evict_last")
+            block_scale = tl.load(scales_ptrs, mask=offs_k[:, None] < local_k - k, other=1.0)
+            block_zero = tl.load(zeros_ptrs, mask=offs_k[:, None] < local_k - k, other=0.0)
+
+            packed_b = tl.load(b_ptrs, mask=offs_k[:, None] < local_k - k, other=0)
+            k_idx = (offs_k[:, None] % 8) * 4
+            val_low = (packed_b & 0x0F).to(tl.int8).to(tl.float32)
+            val_high = ((packed_b >> 4) & 0x0F).to(tl.int8).to(tl.float32)
+            b_low = (val_low - block_zero) * block_scale
+            b_high = (val_high - block_zero) * block_scale
+
+            acc = tl.dot(a, b_low, acc)
+            a_shift = tl.load(a_ptrs + stride_bk * (1 if EVEN_K else 8), mask=offs_k[None, :] + 8 < local_k - k, other=0.0, eviction_policy="evict_last")
+            acc = tl.dot(a_shift, b_high, acc)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K // 8) * stride_bk
+        scales_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+        zeros_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+
+    if SPLIT_K == 1:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.store(c_ptrs, acc.to(c_ptrs.type.element_ty), mask=c_mask)
+    else:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :] + pid_k * M * N
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.atomic_add(c_ptrs, acc, mask=c_mask)
+
+
+def matmul_dequantize_int4_s2(a, int4b_compressed, scales, zeros, M, N, K):
+    c_dtype = a.dtype
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 128
+    BLOCK_SIZE_K = 32
+    SPLIT_K = 1
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']),
+                         triton.cdiv(N, META['BLOCK_SIZE_N']),
+                         SPLIT_K)
+
+    if SPLIT_K > 1:
+        c = torch.empty((SPLIT_K, M, N), dtype=torch.float32, device=a.device)
+    else:
+        c = torch.empty((M, N), dtype=c_dtype, device=a.device)
+
+    EVEN_K = K % 32 == 0
+
+    matmul_kernel[grid](a, int4b_compressed, c,
+                        scales, zeros,
+                        M, N, K,
+                        a.stride(0), a.stride(1),
+                        int4b_compressed.stride(0), int4b_compressed.stride(1),
+                        c.stride(0) if c.dim() == 2 else c.stride(1),
+                        c.stride(1) if c.dim() == 2 else c.stride(2),
+                        scales.stride(0), scales.stride(1),
+                        BLOCK_SIZE_M=BLOCK_SIZE_M,
+                        BLOCK_SIZE_N=BLOCK_SIZE_N,
+                        BLOCK_SIZE_K=BLOCK_SIZE_K,
+                        GROUP_SIZE_M=8,
+                        SPLIT_K=SPLIT_K,
+                        EVEN_K=EVEN_K)
+    return c if SPLIT_K == 1 else c.sum(dim=0)
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    org_shape = x.shape
+    x = x.view(-1, group_size)
+    x_fp32 = x.float()
+    x_min = x_fp32.amin(dim=-1, keepdim=True)
+    x_max = x_fp32.amax(dim=-1, keepdim=True)
+    scale = (x_max - x_min) / 15.0
+    zero = (-x_min / scale + 0.5).clamp(0, 15)
+
+    int4 = (((x_fp32 - x_min) / scale + 0.5).clamp(0, 15)).round().to(torch.int8)
+
+    int4 = int4.view(-1)
+    packed = torch.zeros(x.size(0), x.size(1) // 2, dtype=torch.int32, device=x.device)
+    int4_even = int4[::2].to(torch.int32)
+    int4_odd = int4[1::2].to(torch.int32)
+    packed = int4_even | (int4_odd << 4)
+    packed = packed.view(org_shape[0], org_shape[1] // 2)
+    scale = scale.squeeze(-1)
+    zero = zero.squeeze(-1)
+    return packed, scale, zero
+
+
+def unpack_int4(packed: torch.Tensor, scale: torch.Tensor, zero: torch.Tensor, group_size: int = 128):
+    M, Nhalf = packed.shape
+    N = Nhalf * 2
+    unpacked = torch.empty(M, N, dtype=torch.float16, device=packed.device)
+
+    packed = packed.int()
+    for i in range(M):
+        for j in range(Nhalf):
+            low = (packed[i, j] & 0x0F).to(torch.float32)
+            high = ((packed[i, j] >> 4) & 0x0F).to(torch.float32)
+            group_idx = j * 2 // group_size
+            val_low = (low - zero[i, group_idx]) * scale[i, group_idx]
+            val_high = (high - zero[i, group_idx]) * scale[i, group_idx]
+            unpacked[i, 2 * j] = val_low.to(torch.float16)
+            unpacked[i, 2 * j + 1] = val_high.to(torch.float16)
+    return unpacked
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_811684.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_811684.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_811684.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_811684.py.stdout
new file mode 100644
index 0000000..5d74cfb
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_811684.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_811684 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_815235.py b/src/temp/gen/int4_matmul.py_gen_triton_code_815235.py
new file mode 100644
index 0000000..c9f4031
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_815235.py
@@ -0,0 +1,312 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def matmul_kernel(
+    A, B, C,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bq, stride_bs, stride_bz,
+    SPLIT_K: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    start_m = pid_m * BLOCK_SIZE_M
+    start_n = pid_n * BLOCK_SIZE_N
+    start_k = 0
+    if SPLIT_K > 1:
+        start_k = tl.program_id(1) * tl.cdiv(K, SPLIT_K)
+
+    a_ptrs = A + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = B + (offs_k[:, None] * stride_bk + offs_n[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    mask_m = offs_m < M
+    mask_n = offs_n < N
+
+    group_size = K // (B.numel() // B.shape[0] // B.shape[1])
+    q_group_size = 32
+
+    num_groups_k = tl.cdiv(K, q_group_size)
+
+    offs_k_p = start_k + offs_k
+    for k in range(start_k, min(start_k + tl.cdiv(K, SPLIT_K), K), BLOCK_SIZE_K):
+        a = tl.load(a_ptrs, mask=mask_m[:, None] & (offs_k[None, :] < (K - k)), other=0.0)
+
+        idx_q = offs_k_p // q_group_size
+        idx_in_q = (offs_k_p % q_group_size) // 2
+        mask_even = (offs_k_p % q_group_size) % 2 == 0
+
+        group_id = idx_q
+        group_offset = group_id * stride_bq
+
+        packed = tl.load(B + group_offset + idx_in_q[:, None] * stride_bn + offs_n[None, :] * stride_bn, mask=(idx_in_q[:, None] < (K - k) // 2) & mask_n[None, :])
+        packed = packed.to(tl.int32)
+
+        scale = tl.load(B + group_offset + stride_bs)
+        zero = tl.load(B + group_offset + stride_bz)
+
+        q0 = (packed & 0xF)
+        q1 = ((packed >> 4) & 0xF)
+
+        q0 = q0.to(tl.float32) - 8
+        q1 = q1.to(tl.float32) - 8
+
+        q = tl.where(mask_even[:, None], q0, q1)
+        b = scale * q
+
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+        offs_k_p += BLOCK_SIZE_K
+
+    result = accumulator
+
+    c_ptrs = C + stride_cm * offs_m[:, None] + stride_cn * offs_n[None, :]
+    mask = mask_m[:, None] & mask_n[None, :]
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, result, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, result, mask=mask)
+
+
+_configs = [
+    triton.Config({'BLOCK_SIZE_M': 16, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 256,
+                   'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64,
+                   'GROUP_SIZE_M': 8}, num_stages=1, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32,
+                   'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64,
+                   'GROUP_SIZE_M': 8}, num_stages=1, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32,
+                   'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32,
+                   'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 64,
+                   'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 128,
+                   'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 128,
+                   'GROUP_SIZE_M': 8}, num_stages=2, num_warps=4),
+]
+
+@triton.autotune(configs=_configs, key=['M', 'N', 'K'])
+@triton.jit
+def matmul_autotune_kernel(
+    A, B, C,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bq, stride_bs, stride_bz,
+    SPLIT_K: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    start_m = pid_m * BLOCK_SIZE_M
+    start_n = pid_n * BLOCK_SIZE_N
+    start_k = 0
+    if SPLIT_K > 1:
+        start_k = tl.program_id(1) * tl.cdiv(K, SPLIT_K)
+
+    a_ptrs = A + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = B + (offs_k[:, None] * stride_bk + offs_n[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    mask_m = offs_m < M
+    mask_n = offs_n < N
+
+    group_size = K // (B.numel() // B.shape[0] // B.shape[1])
+    q_group_size = 32
+
+    num_groups_k = tl.cdiv(K, q_group_size)
+
+    offs_k_p = start_k + offs_k
+    for k in range(start_k, min(start_k + tl.cdiv(K, SPLIT_K), K), BLOCK_SIZE_K):
+        a = tl.load(a_ptrs, mask=mask_m[:, None] & (offs_k[None, :] < (K - k)), other=0.0)
+
+        idx_q = offs_k_p // q_group_size
+        idx_in_q = (offs_k_p % q_group_size) // 2
+        mask_even = (offs_k_p % q_group_size) % 2 == 0
+
+        group_id = idx_q
+        group_offset = group_id * stride_bq
+
+        packed = tl.load(B + group_offset + idx_in_q[:, None] * stride_bn + offs_n[None, :] * stride_bn, mask=(idx_in_q[:, None] < (K - k) // 2) & mask_n[None, :])
+        packed = packed.to(tl.int32)
+
+        scale = tl.load(B + group_offset + stride_bs)
+        zero = tl.load(B + group_offset + stride_bz)
+
+        q0 = (packed & 0xF)
+        q1 = ((packed >> 4) & 0xF)
+
+        q0 = q0.to(tl.float32) - 8
+        q1 = q1.to(tl.float32) - 8
+
+        q = tl.where(mask_even[:, None], q0, q1)
+        b = scale * q
+
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+        offs_k_p += BLOCK_SIZE_K
+
+    result = accumulator
+
+    c_ptrs = C + stride_cm * offs_m[:, None] + stride_cn * offs_n[None, :]
+    mask = mask_m[:, None] & mask_n[None, :]
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, result, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, result, mask=mask)
+
+
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor, w: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor,
+    split_k: int = 1
+) -> torch.Tensor:
+    B, M, K = x.shape
+    N, K_packed = w.shape
+    group_size = K // (w.numel() // w.shape[0] // w.shape[1])
+
+    assert K_packed == K // 2, (
+        f"Expected packed weight shape {K // 2}, got {K_packed}"
+    )
+    assert w.dtype == torch.int32
+
+    c = torch.empty((B, M, N), dtype=x.dtype, device=x.device)
+    grid = lambda META: (
+        triton.cdiv(M * B, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        split_k,
+    )
+
+    matmul_autotune_kernel[grid](
+        x.flatten(0, 1), w, c.flatten(0, 1),
+        M * B, N, K,
+        x.stride(1), x.stride(2),
+        w.stride(1), w.stride(0),
+        c.stride(1), c.stride(2),
+        scales.stride(0) if scales.dim() > 1 else 0,
+        scales.stride(0) if scales.dim() > 1 else 1,
+        zeros.stride(0) if zeros.dim() > 1 else 0,
+        SPLIT_K=split_k,
+    )
+    return c
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    B, K = x.shape
+    assert K % group_size == 0, f"K ({K}) must be divisible by group_size ({group_size})"
+
+    x = x.to(torch.float32)
+    x = x.view(B, -1, group_size)
+
+    mn, mx = x.aminmax(dim=2, keepdim=True)
+    scale = (mx - mn) / 15
+    scale = torch.where(scale == 0, 1, scale)
+    zero = -mn / scale
+
+    xq = ((x / scale + zero + 0.5).floor()).clamp(0, 15).to(torch.int32)
+
+    xq = (xq.view(B, -1, 4) << torch.tensor([0, 4, 8, 12], device=xq.device)).sum(2).to(torch.int32)
+
+    scale = scale.view(B, -1)
+    zero = zero.view(B, -1)
+
+    return xq, scale, zero
+
+
+def unpack_int4(w: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    B, K_packed = w.shape
+    K = K_packed * 2
+
+    scales = scales.to(torch.float32)
+    zeros = zeros.to(torch.float32)
+
+    w = w.view(B, -1)
+    ws = (w[..., None] >> torch.tensor([0, 4], dtype=torch.int32, device=w.device)) & 0xF
+
+    ws = ws.flatten(-2)
+
+    ws = ws.view(B, -1, group_size)
+
+    ws = (ws.to(torch.float32) - zeros.unsqueeze(-1)) * scales.unsqueeze(-1)
+
+    ws = ws.view(B, K).to(torch.float16)
+
+    return ws
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_815235.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_815235.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_815235.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_815235.py.stdout
new file mode 100644
index 0000000..05564c5
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_815235.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_815235 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_816192.py b/src/temp/gen/int4_matmul.py_gen_triton_code_816192.py
new file mode 100644
index 0000000..fac6710
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_816192.py
@@ -0,0 +1,299 @@
+
+import torch
+import triton
+import triton.language as tl
+
+configs_matmul = [
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+]
+
+@triton.autotune(
+    configs=configs_matmul,
+    key=["M", "N", "K"],
+    use_cuda_graph=False
+)
+@triton.jit
+def matmul_kernel(
+    A, B, C, scales, zeros,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g0, stride_zeros_n,
+    groupsize,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr = 1,
+    GROUP_SIZE_M: tl.constexpr = 8
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = A + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = B + ((offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_pos = k * BLOCK_SIZE_K * SPLIT_K + offs_k
+        g_idx = (k_pos) // groupsize
+
+        mask_k = k_pos < K
+        a = tl.load(a_ptrs, mask=mask_k[None, :], other=0.0)
+
+        offset_b = (k_pos[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+        b_chunk = tl.load(B + offset_b, mask=mask_k[:, None], other=0)
+
+        scale_offset = g_idx[:, None] * stride_scales_g + offs_n[None, :] * stride_scales_n
+        scale_val = tl.load(scales + scale_offset, mask=mask_k[:, None], other=0.0)
+
+        zp_val = tl.load(zeros + g_idx[:, None] * stride_zeros_g0 + (offs_n // 8)[None, :] * stride_zeros_n, mask=mask_k[:, None], other=0.0)
+        shift_n = (offs_n % 8)[None, :] * 4
+        inv_zp = ((zp_val >> shift_n) & 0xF) * scale_val
+
+        shift_k = (k_pos % 8)[:, None] * 4
+        w_int = (b_chunk >> shift_k) & 0xF
+        w_fp = (w_int * scale_val - inv_zp)
+
+        accumulator += tl.dot(a, w_fp)
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+
+    c = accumulator
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_cm = offs_cm < M
+    mask_cn = offs_cn < N
+    c_ptrs = C + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = mask_cm[:, None] & mask_cn[None, :]
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor, qzeros: torch.IntTensor, group_size: int = 128, output=None) -> torch.FloatTensor:
+    assert x.is_contiguous(), "A must be contiguous"
+    assert qweight.is_contiguous(), "B must be contiguous"
+    M, K = x.shape
+    Kw, N = qweight.shape
+    K_expected = Kw * 8
+    assert K == K_expected, f"Expected K = {K_expected}, got {K}"
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    else:
+        output.fill_(0)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        max(META.get('SPLIT_K', 1), 1),
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return output
+
+configs_dequant = [
+    triton.Config({'BLOCK_SIZE_K': 32, 'BLOCK_SIZE_N': 128}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 128}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 32, 'BLOCK_SIZE_N': 64}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 64}, num_stages=2, num_warps=4),
+]
+
+@triton.autotune(
+    configs=configs_dequant,
+    key=["K", "N"],
+    use_cuda_graph=False
+)
+@triton.jit
+def dequantize_kernel(
+    qw_ptr, sc_ptr, zp_ptr, fpw_ptr,
+    K, N, groupsize,
+    stride_qk, stride_qn,
+    stride_scg, stride_scn,
+    stride_zpg, stride_zpn,
+    stride_fk, stride_fn,
+    BLOCK_SIZE_K: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+):
+    k_blk = tl.program_id(0)
+    n_blk = tl.program_id(1)
+
+    offs_k = k_blk * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    offs_n = n_blk * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_k = offs_k[:, None] < K
+    mask_n = offs_n[None, :] < N
+    mask = mask_k & mask_n
+
+    grp = offs_k[:, None] // groupsize
+
+    qw_offs = (offs_k[:, None] // 8) * stride_qk + offs_n[None, :] * stride_qn
+    qw_local = tl.load(qw_ptr + qw_offs, mask=mask, other=0)
+
+    sc_offs = grp * stride_scg + offs_n[None, :] * stride_scn
+    sc_local = tl.load(sc_ptr + sc_offs, mask=mask, other=0.0)
+
+    zp_offs = grp * stride_zpg + (offs_n // 8)[None, :] * stride_zpn
+    zp_quad = tl.load(zp_ptr + zp_offs, mask=mask, other=0)
+
+    shift_k = (offs_k % 8)[:, None] * 4
+    shift_n = (offs_n % 8)[None, :] * 4
+
+    qh = (qw_local >> shift_k) & 0xF
+    qz = (zp_quad >> shift_n) & 0xF
+
+    dq_val = (qh - qz) * sc_local
+    tl.store(fpw_ptr + offs_k[:, None] * stride_fk + offs_n[None, :] * stride_fn, dq_val, mask=mask)
+
+def dequantize_int4(b: torch.Tensor, b_scale: torch.Tensor, b_zero_point: torch.Tensor, device, dtype, groupsize):
+    K_pack, N = b.shape
+    K = K_pack * 8
+    fp_b = torch.empty((K, N), device=device, dtype=dtype)
+    grid = lambda META: (
+        triton.cdiv(K, META['BLOCK_SIZE_K']),
+        triton.cdiv(N, META['BLOCK_SIZE_N']),
+    )
+    dequantize_kernel[grid](
+        b, b_scale, b_zero_point, fp_b,
+        K, N, groupsize,
+        b.stride(0), b.stride(1),
+        b_scale.stride(0), b_scale.stride(1),
+        b_zero_point.stride(0), b_zero_point.stride(1),
+        fp_b.stride(0), fp_b.stride(1)
+    )
+    return fp_b
+
+def quantize_int4(x: torch.Tensor, groupsize: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    W = x.t().contiguous()
+    K_raw, N = W.shape
+    assert K_raw % groupsize == 0, "K must be divisible by groupsize"
+    groups = K_raw // groupsize
+    W = W.view(groups, groupsize, N)
+    wmin = W.min(dim=1, keepdim=True)[0]
+    wmax = W.max(dim=1, keepdim=True)[0]
+    scale = (wmax - wmin) / 15
+    zero = -wmin / scale
+    zero = torch.round(zero).clamp(0, 15)
+
+    qweight_t = torch.clamp(torch.round(W / scale + zero), 0, 15).to(torch.int8)
+
+    packed = torch.zeros((groups * groupsize) // 8, N, dtype=torch.int32, device=x.device)
+    for col in range(N):
+        w_col = qweight_t[:, :, col].flatten()
+        for idx in range(0, w_col.size(0), 8):
+            vals = w_col[idx:idx+8]
+            val = 0
+            for v in vals:
+                val = (val << 4) | (v.int() & 0xF)
+            packed[idx//8, col] = val
+    qweight = packed.t().contiguous()
+
+    scale = scale.squeeze(1).transpose(0, 1).contiguous()
+    zero = zero.squeeze(1).transpose(0, 1).contiguous()
+
+    qzeros = torch.empty_like(zero, dtype=torch.int32)
+    for col in range(N):
+        for row in range(groups):
+            val = zero[row, col].int() & 0xF
+            qzeros[row, col] = val
+    qzeros = qzeros.transpose(0, 1).contiguous().view(groups, N // 8, 8).transpose(1,2)
+    zsplit = torch.zeros((groups, N//8), dtype=torch.int32, device=x.device)
+    idx = 0
+    for row in range(groups):
+        for col in range(N//8):
+            acc = 0
+            for k in range(8):
+                acc |= (zero[row, col*8 + k].int() & 0xF) << (k * 4)
+            zsplit[row, col] = acc
+    qzeros = zsplit.transpose(0,1).contiguous()
+    scale = scale.transpose(0,1).contiguous()
+
+    return qweight, scale, qzeros
+
+def unpack_int4(packed_weights: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, groupsize: int) -> torch.Tensor:
+    K_pack, N = packed_weights.shape
+    K = K_pack * 8
+    device = packed_weights.device
+    dtype = scales.dtype
+
+    unpacked = torch.zeros((K, N), dtype=dtype, device=device)
+    for i in range(K_pack):
+        chunk = packed_weights[i]
+        for j in range(8):
+            bits = (chunk >> (j * 4)) & 0xF
+            unpacked[i * 8 + j] = bits.float()
+
+    num_groups = K // groupsize
+    scale_expanded = scales.t().repeat_interleave(groupsize, dim=0)
+    zero_expanded = zeros.t().repeat_interleave(groupsize, dim=0)
+
+    result = (unpacked - zero_expanded) * scale_expanded
+    return result.t()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_816192.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_816192.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_816192.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_816192.py.stdout
new file mode 100644
index 0000000..41c20e8
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_816192.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_816192 due to quantize_int4() got an unexpected keyword argument 'group_size'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_838410.py b/src/temp/gen/int4_matmul.py_gen_triton_code_838410.py
new file mode 100644
index 0000000..9ead0cf
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_838410.py
@@ -0,0 +1,215 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def matmul_kernel(A, B, C, scales, zeros,
+                  M, N, K,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_scales_g, stride_scales_n,
+                  stride_zeros_g, stride_zeros_n,
+                  groupsize,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  SPLIT_K: tl.constexpr = 1,
+                  GROUP_SIZE_M: tl.constexpr = 8):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    k_idx = tl.arange(0, BLOCK_SIZE_K)
+    group_id_k = k_idx // groupsize
+    a_ptrs = A + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = B + ((offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn)
+    scales_ptrs = scales + group_id_k[None, :] * stride_scales_g + offs_n[None, :] * stride_scales_n
+    zeros_ptrs = zeros + group_id_k[None, :] * stride_zeros_g + offs_n[None, :] * stride_zeros_n
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_idx = pos_k = k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+        group_id_k = pos_k // groupsize
+        scales_ptrs = scales + group_id_k[None, :] * stride_scales_g + offs_n[None, :] * stride_scales_n
+        zeros_ptrs = zeros + group_id_k[None, :] * stride_zeros_g + offs_n[None, :] * stride_zeros_n
+
+        mask_k = pos_k < K
+        a = tl.load(a_ptrs, mask=mask_k[None, :], other=0.0)
+        
+        b_idx = pos_k // 8
+        b = tl.load(B + b_idx[:, None] * stride_bk + offs_n[None, :] * stride_bn, mask=mask_k[:, None], other=0)
+        
+        scales = tl.load(scales_ptrs, mask=mask_k[None, :], other=0.0)
+        zeros = tl.load(zeros_ptrs, mask=mask_k[None, :], other=0.0)
+
+        vec = tl.arange(0, 8)
+        shift = (pos_k % 8) * 4
+        weights = (b >> shift[:, None]) & 0xF
+        
+        b_f = (weights - zeros) * scales
+        
+        accumulator += tl.dot(a, b_f)
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+    c = accumulator
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_cm = offs_cm < M
+    mask_cn = offs_cn < N
+    c_ptrs = C + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = mask_cm[:, None] & mask_cn[None, :]
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+configs = [
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=5, num_warps=2),
+]
+
+@triton.autotune(configs=configs, key=["M", "N", "K"], use_cuda_graph=False)
+@triton.jit
+def matmul_dequantize_int4_s2(
+    A, B, C, scales, zeros,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g, stride_zeros_n,
+    groupsize,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr = 1
+):
+    matmul_kernel(
+        A, B, C, scales, zeros,
+        M, N, K,
+        stride_am, stride_ak,
+        stride_bk, stride_bn,
+        stride_cm, stride_cn,
+        stride_scales_g, stride_scales_n,
+        stride_zeros_g, stride_zeros_n,
+        groupsize,
+        BLOCK_SIZE_M=BLOCK_SIZE_M, 
+        BLOCK_SIZE_N=BLOCK_SIZE_N, 
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+        SPLIT_K=SPLIT_K
+    )
+
+def quantize_int4(x: torch.Tensor, groupsize: int = 32) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    x = x.t()
+    W = x
+    M, N = W.shape[0], W.shape[1]
+    W = W.reshape((M, N))
+
+    groups = M // groupsize
+    
+    W = W.reshape((groups, -1, N))
+    Wmin = W.min(dim=1, keepdim=True)[0]
+    Wmax = W.max(dim=1, keepdim=True)[0]
+    
+    scale = (Wmax - Wmin) / 15
+    zero = -Wmin / scale
+    
+    scale = scale.expand(groups, groupsize, N).reshape(M, -1)
+    zero = zero.expand(groups, groupsize, N).reshape(M, -1)
+    
+    int_weight = torch.clamp(torch.round(W / scale.unsqueeze(1) + zero.unsqueeze(1)), 0, 15)
+    
+    intweight = int_weight.reshape(M, N)
+    
+    packed_weight = torch.zeros((W.shape[0], W.shape[2] // 2), dtype=torch.int32, device=x.device)
+    for col in range(0, intweight.shape[1], 8):
+        v = intweight[:, col:col+8].contiguous().view(torch.int8)
+        v = v & 0xF  # ensure 4bit
+        v1 = v[:, ::2] & 0xF
+        v2 = (v[:, 1::2] & 0xF) << 4
+        packed_weight[:, col//2] = (v1 | v2).view(torch.int32).squeeze()
+
+    packed_weight = packed_weight.t()
+    
+    scale = scale[::groupsize, :].t()
+    zero = zero[::groupsize, :].t()
+    
+    return packed_weight, scale, zero
+
+def unpack_int4(
+    packed_weights: torch.Tensor, 
+    scales: torch.Tensor, 
+    zeros: torch.Tensor, 
+    groupsize: int
+) -> torch.Tensor:
+    N, M = packed_weights.shape
+    unpacked = torch.zeros((N, M * 8), dtype=torch.float16, device=packed_weights.device)
+    
+    for i in range(M):
+        chunk = packed_weights[:, i]
+        for j in range(8):
+            lower = (chunk >> (j * 4)) & 0xF
+            unpacked[:, i * 8 + j] = lower.float()
+    
+    scales = scales.repeat_interleave(groupsize, dim=0)
+    zeros = zeros.repeat_interleave(groupsize, dim=0)
+    
+    unpacked = (unpacked - zeros[:N, :M*8]) * scales[:N, :M*8]
+    return unpacked.t()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_838410.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_838410.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_838410.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_838410.py.stdout
new file mode 100644
index 0000000..a782474
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_838410.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_838410 due to quantize_int4() got an unexpected keyword argument 'group_size'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_865534.py b/src/temp/gen/int4_matmul.py_gen_triton_code_865534.py
new file mode 100644
index 0000000..5e87075
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_865534.py
@@ -0,0 +1,313 @@
+
+import torch
+import triton
+import triton.language as tl
+
+configs_matmul = [
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  32, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=8),
+    triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+]
+
+@triton.autotune(
+    configs=configs_matmul,
+    key=["M", "N", "K"],
+    use_cuda_graph=False
+)
+@triton.jit
+def matmul_kernel(
+    A, B, C, scales, zeros,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g0, stride_zeros_n,
+    groupsize,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr = 1,
+    GROUP_SIZE_M: tl.constexpr = 8
+):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_k = tl.cdiv(K, BLOCK_SIZE_K)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = A + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = B + ((offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_pos = k * BLOCK_SIZE_K * SPLIT_K + offs_k
+        g_idx = (k_pos) // groupsize
+
+        mask_k = k_pos < K
+        a = tl.load(a_ptrs, mask=mask_k[None, :], other=0.0)
+
+        offset_b = (k_pos[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+        b_chunk = tl.load(B + offset_b, mask=mask_k[:, None], other=0)
+
+        scale_offset = g_idx[:, None] * stride_scales_g + offs_n[None, :] * stride_scales_n
+        scale_val = tl.load(scales + scale_offset, mask=mask_k[:, None], other=0.0)
+
+        zp_val = tl.load(zeros + g_idx[:, None] * stride_zeros_g0 + (offs_n // 8)[None, :] * stride_zeros_n, mask=mask_k[:, None], other=0.0)
+        shift_n = (offs_n % 8)[None, :] * 4
+        inv_zp = ((zp_val >> shift_n) & 0xF) * scale_val
+
+        shift_k = (k_pos % 8)[:, None] * 4
+        w_int = (b_chunk >> shift_k) & 0xF
+        w_fp = (w_int * scale_val - inv_zp)
+
+        accumulator += tl.dot(a, w_fp)
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+
+    c = accumulator
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_cm = offs_cm < M
+    mask_cn = offs_cn < N
+    c_ptrs = C + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = mask_cm[:, None] & mask_cn[None, :]
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask)
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor, qweight: torch.IntTensor, scales: torch.FloatTensor, qzeros: torch.IntTensor, group_size: int = 128, output=None) -> torch.FloatTensor:
+    assert x.is_contiguous(), "A must be contiguous"
+    assert qweight.is_contiguous(), "B must be contiguous"
+    M, K = x.shape
+    Kw, N = qweight.shape
+    K_expected = Kw * 8
+    assert K == K_expected, f"Expected K = {K_expected}, got {K}"
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    else:
+        output.fill_(0)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        max(META.get('SPLIT_K', 1), 1),
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return output
+
+configs_dequant = [
+    triton.Config({'BLOCK_SIZE_K': 32, 'BLOCK_SIZE_N': 128}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 128}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 32, 'BLOCK_SIZE_N': 64}, num_stages=2, num_warps=4),
+    triton.Config({'BLOCK_SIZE_K': 64, 'BLOCK_SIZE_N': 64}, num_stages=2, num_warps=4),
+]
+
+@triton.autotune(
+    configs=configs_dequant,
+    key=["K", "N"],
+    use_cuda_graph=False
+)
+@triton.jit
+def dequantize_kernel(
+    qw_ptr, sc_ptr, zp_ptr, fpw_ptr,
+    K, N, groupsize,
+    stride_qk, stride_qn,
+    stride_scg, stride_scn,
+    stride_zpg, stride_zpn,
+    stride_fk, stride_fn,
+    BLOCK_SIZE_K: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+):
+    k_blk = tl.program_id(0)
+    n_blk = tl.program_id(1)
+
+    offs_k = k_blk * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+    offs_n = n_blk * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_k = offs_k[:, None] < K
+    mask_n = offs_n[None, :] < N
+    mask = mask_k & mask_n
+
+    grp = offs_k[:, None] // groupsize
+
+    qw_offs = (offs_k[:, None] // 8) * stride_qk + offs_n[None, :] * stride_qn
+    qw_local = tl.load(qw_ptr + qw_offs, mask=mask, other=0)
+
+    sc_offs = grp * stride_scg + offs_n[None, :] * stride_scn
+    sc_local = tl.load(sc_ptr + sc_offs, mask=mask, other=0.0)
+
+    zp_offs = grp * stride_zpg + (offs_n // 8)[None, :] * stride_zpn
+    zp_quad = tl.load(zp_ptr + zp_offs, mask=mask, other=0)
+
+    shift_k = (offs_k % 8)[:, None] * 4
+    shift_n = (offs_n % 8)[None, :] * 4
+
+    qh = (qw_local >> shift_k) & 0xF
+    qz = (zp_quad >> shift_n) & 0xF
+
+    dq_val = (qh - qz) * sc_local
+    tl.store(fpw_ptr + offs_k[:, None] * stride_fk + offs_n[None, :] * stride_fn, dq_val, mask=mask)
+
+def dequantize_int4(b: torch.Tensor, b_scale: torch.Tensor, b_zero_point: torch.Tensor, device, dtype, groupsize):
+    K_pack, N = b.shape
+    K = K_pack * 8
+    fp_b = torch.empty((K, N), device=device, dtype=dtype)
+    grid = lambda META: (
+        triton.cdiv(K, META['BLOCK_SIZE_K']),
+        triton.cdiv(N, META['BLOCK_SIZE_N']),
+    )
+    dequantize_kernel[grid](
+        b, b_scale, b_zero_point, fp_b,
+        K, N, groupsize,
+        b.stride(0), b.stride(1),
+        b_scale.stride(0), b_scale.stride(1),
+        b_zero_point.stride(0), b_zero_point.stride(1),
+        fp_b.stride(0), fp_b.stride(1)
+    )
+    return fp_b
+
+def matmul_dequantize_int4_s1(a, b, b_scale, b_zero_point, groupsize=128, out=None):
+    assert a.is_contiguous(), "Matrix A must be contiguous"
+    M, K = a.shape
+    Kw, N = b.shape
+    if out is None:
+        out = torch.empty((M, N), device=a.device, dtype=a.dtype)
+    fp_b = dequantize_int4(b, b_scale, b_zero_point, a.device, a.dtype, groupsize)
+    torch.mm(a, fp_b, out=out)
+    fp_b = None
+    return out
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    W = x.t().contiguous()
+    K_raw, N = W.shape
+    assert K_raw % group_size == 0, "K must be divisible by group_size"
+    groups = K_raw // group_size
+    W = W.view(groups, group_size, N)
+    wmin = W.min(dim=1, keepdim=True)[0]
+    wmax = W.max(dim=1, keepdim=True)[0]
+    scale = (wmax - wmin) / 15
+    zero = -wmin / scale
+    zero = torch.round(zero).clamp(0, 15)
+
+    qweight_t = torch.clamp(torch.round(W / scale + zero), 0, 15).to(torch.int8)
+
+    packed = torch.zeros((groups * group_size) // 8, N, dtype=torch.int32, device=x.device)
+    for col in range(N):
+        w_col = qweight_t[:, :, col].flatten()
+        for idx in range(0, w_col.size(0), 8):
+            vals = w_col[idx:idx+8]
+            val = 0
+            for v in vals:
+                val = (val << 4) | (v.int() & 0xF)
+            packed[idx//8, col] = val
+    qweight = packed.t().contiguous()
+
+    scale = scale.squeeze(1).transpose(0, 1).contiguous()
+    zero = zero.squeeze(1).transpose(0, 1).contiguous()
+
+    qzeros = torch.empty_like(zero, dtype=torch.int32)
+    for col in range(N):
+        for row in range(groups):
+            val = zero[row, col].int() & 0xF
+            qzeros[row, col] = val
+    qzeros = qzeros.transpose(0, 1).contiguous().view(groups, N // 8, 8).transpose(1,2)
+    zsplit = torch.zeros((groups, N//8), dtype=torch.int32, device=x.device)
+    idx = 0
+    for row in range(groups):
+        for col in range(N//8):
+            acc = 0
+            for k in range(8):
+                acc |= (zero[row, col*8 + k].int() & 0xF) << (k * 4)
+            zsplit[row, col] = acc
+    qzeros = zsplit.transpose(0,1).contiguous()
+    scale = scale.transpose(0,1).contiguous()
+
+    return qweight, scale, qzeros
+
+def unpack_int4(packed_weights: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int) -> torch.Tensor:
+    K_pack, N = packed_weights.shape
+    K = K_pack * 8
+    device = packed_weights.device
+    dtype = scales.dtype
+
+    unpacked = torch.zeros((K, N), dtype=dtype, device=device)
+    for col in range(N):
+        chunk = packed_weights[:, col]
+        for i in range(K_pack):
+            val = chunk[i].int()
+            for j in range(8):
+                bits = (val >> (j * 4)) & 0xF
+                unpacked[i * 8 + j, col] = float(bits)
+
+    num_groups = K // group_size
+    scale_expanded = scales.t().repeat_interleave(group_size, dim=0)
+    zero_expanded = zeros.t().repeat_interleave(group_size, dim=0)
+
+    result = (unpacked - zero_expanded) * scale_expanded
+    return result.t()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_886215.py b/src/temp/gen/int4_matmul.py_gen_triton_code_886215.py
new file mode 100644
index 0000000..15b6e37
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_886215.py
@@ -0,0 +1,231 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr, scales_ptr, zeros_ptr,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_scales_g, stride_scales_n,
+                  stride_zeros_g, stride_zeros_n,
+                  M, N, K,
+                  groupsize,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  SPLIT_K: tl.constexpr,
+                  IS_EVEN_K: tl.constexpr):
+    pid = tl.program_id(axis=0)
+    pid_k = tl.program_id(1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = num_pid_m * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * num_pid_m
+    group_size_m = min(num_pid_m, M - first_pid_m * BLOCK_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    offs_am = offs_m % M
+    offs_bn = offs_n % N
+    offs_bk = offs_k % K
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_bk[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_bk[:, None] // 8) * stride_bk + offs_bn[None, :] * stride_bn)
+
+    scales_ptrs = scales_ptr + ((offs_bn[None, :] // groupsize) * stride_scales_g + offs_bn[None, :] * stride_scales_n)
+    zeros_ptrs = zeros_ptr + ((offs_bn[None, :] // groupsize) * stride_zeros_g + offs_bn[None, :] * stride_zeros_n)
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        mask_k = IS_EVEN_K or (offs_bk[None, :] < K)
+        a = tl.load(a_ptrs, mask=mask_k, other=0.0)
+        b_i4 = tl.load(b_ptrs, mask=mask_k, other=0)
+        scales = tl.load(scales_ptrs)
+        zeros = tl.load(zeros_ptrs)
+
+        b_i4 = (b_i4 >> ((offs_bk[:, None] % 8) * 4)) & 0xF
+        b = b_i4.to(tl.float32) * scales - zeros
+        acc += tl.dot(a, b)
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, acc, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, acc, mask=mask)
+
+
+configs = [
+    triton.Config({'BLOCK_SIZE_M': 16, 'BLOCK_SIZE_N': 16, 'BLOCK_SIZE_K': 64, 'SPLIT_K': 1}, num_stages=2,
+                  num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 64, 'SPLIT_K': 1}, num_stages=2,
+                  num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 64, 'SPLIT_K': 1}, num_stages=2,
+                  num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32, 'BLOCK_SIZE_K': 64, 'SPLIT_K': 1}, num_stages=2,
+                  num_warps=4),
+    triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 64, 'SPLIT_K': 2}, num_stages=2,
+                  num_warps=4),
+]
+
+
+@triton.autotune(configs=configs, key=['M', 'N', 'K'])
+@triton.jit
+def matmul_dequantize_int4_kernel(a_ptr, b_ptr, c_ptr, scales_ptr, zeros_ptr,
+                                  stride_am, stride_ak,
+                                  stride_bk, stride_bn,
+                                  stride_cm, stride_cn,
+                                  stride_scales_g, stride_scales_n,
+                                  stride_zeros_g, stride_zeros_n,
+                                  M, N, K,
+                                  groupsize,
+                                  BLOCK_SIZE_M: tl.constexpr,
+                                  BLOCK_SIZE_N: tl.constexpr,
+                                  BLOCK_SIZE_K: tl.constexpr,
+                                  SPLIT_K: tl.constexpr):
+    matmul_kernel(a_ptr, b_ptr, c_ptr, scales_ptr, zeros_ptr,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_scales_g, stride_scales_n,
+                  stride_zeros_g, stride_zeros_n,
+                  M, N, K,
+                  groupsize,
+                  BLOCK_SIZE_M=BLOCK_SIZE_M,
+                  BLOCK_SIZE_N=BLOCK_SIZE_N,
+                  BLOCK_SIZE_K=BLOCK_SIZE_K,
+                  SPLIT_K=SPLIT_K,
+                  IS_EVEN_K=(K % (BLOCK_SIZE_K * SPLIT_K) == 0))
+
+
+def matmul_dequantize_int4_s2(a: torch.Tensor, b: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor,
+                              groupsize: int):
+    assert a.dtype == torch.float16 or a.dtype == torch.float32
+    assert b.dtype == torch.int8
+    assert scales.dtype == torch.float16 or scales.dtype == torch.float32
+    assert zeros.dtype == torch.float16 or zeros.dtype == torch.float32
+
+    M, K = a.shape
+    K_, N = b.shape
+    assert K * 8 // 4 == K_, "Weight shape mismatch (K in int4)"
+    assert scales.shape == zeros.shape == (N, K // groupsize)
+
+    c = torch.empty((M, N), dtype=a.dtype, device=a.device)
+
+    grid_lambda = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']), META['SPLIT_K'])
+
+    matmul_dequantize_int4_kernel[grid_lambda](
+        a, b, c, scales, zeros,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        scales.stride(0) if scales.dim() > 1 else 0, scales.stride(1),
+        zeros.stride(0) if zeros.dim() > 1 else 0, zeros.stride(1),
+        M, N, K,
+        groupsize,
+    )
+
+    return c
+
+
+def quantize_int4(w: torch.Tensor, groupsize: int = 128):
+    assert w.dim() == 2, "Weight tensor must be 2-D"
+    w = w.to(torch.float32)
+    oc, ic = w.shape
+    assert ic % groupsize == 0
+
+    w = w.reshape(oc, ic // groupsize, groupsize)
+    wmax = w.amax(dim=2, keepdim=True)
+    wmin = w.amin(dim=2, keepdim=True)
+
+    scale = (wmax - wmin) / 15
+    zero = -wmin / scale
+    scale = scale.squeeze(-1)
+    zero = zero.squeeze(-1)
+
+    int_w = torch.round((w - wmin) / scale.unsqueeze(-1)).clamp(0, 15)
+    int_w = int_w.to(torch.int8)
+
+    out = torch.zeros(oc, ic // 8, dtype=torch.int32, device=w.device)
+    for i in range(0, ic, 8):
+        out_i = 0
+        for j in range(8):
+            out_i |= (int_w[:, i//groupsize, i%groupsize + j] << (j * 4))
+        out[:, i//8] = out_i
+
+    scale = scale.to(torch.float16)
+    zero = zero.to(torch.float16)
+
+    return out.reshape(oc, -1), scale, zero
+
+
+def unpack_int4(w: torch.Tensor, scale: torch.Tensor, zero: torch.Tensor, groupsize: int = 128):
+    assert w.dim() == 2
+    oc, ic_int = w.shape
+    ic = ic_int * 8
+    assert ic % groupsize == 0
+
+    w_bits = torch.empty(oc, ic, dtype=torch.int8, device=w.device)
+    for i in range(ic):
+        shift = (i % 8) * 4
+        w_bits[:, i] = (w[:, i // 8] >> shift) & 0xF
+
+    scale = scale.unsqueeze(-1).expand_as(w_bits)
+    zero = zero.unsqueeze(-1).expand_as(w_bits)
+    w_bits = w_bits.to(scale.dtype)
+
+    w_unpacked = scale * w_bits - zero
+    return w_unpacked.to(torch.float16)
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_886215.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_886215.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_886215.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_886215.py.stdout
new file mode 100644
index 0000000..4e5c3ed
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_886215.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_886215 due to quantize_int4() got an unexpected keyword argument 'group_size'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_891149.py b/src/temp/gen/int4_matmul.py_gen_triton_code_891149.py
new file mode 100644
index 0000000..527b79f
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_891149.py
@@ -0,0 +1,243 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+# ------------------------------------------------------------------
+# INT4 matmul kernel (tiling: M tile, N tile, K tile, SPLIT-K capable)
+# ------------------------------------------------------------------
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64,
+                       'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N':  64, 'BLOCK_SIZE_K': 32,
+                       'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M':  64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32,
+                       'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(
+    x_ptr,                  # (M, K)  fp16/bf16
+    qw_ptr,                 # (K//8, N) packed INT4 in INT32 (8x 4b per int32)
+    sc_ptr,                 # (num_groups, N) fp16/bf16
+    zp_ptr,                 # (num_groups, N) fp16/bf16
+    o_ptr,                  # (M, N)  fp16/bf16
+    M, N, K,
+    stride_xm, stride_xk,
+    stride_qwk, stride_qwn,
+    stride_scg, stride_scn,
+    stride_zpg, stride_zpn,
+    stride_om, stride_on,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr = 1,          # Use for split-k reduction
+):
+    # Program & tile coordinates
+    pid   = tl.program_id(axis=0)
+    pid_k = tl.program_id(axis=1)       # for SPLIT_K
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    # Global tile spans
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    # Adjust for SPLIT_K
+    k_max = (pid_k + 1) * BLOCK_SIZE_K
+    if k_max > K:
+        k_max = K
+    # Clamp inside kernel
+    mask_k = offs_k < K
+    mask_m = offs_m < M
+    mask_n = offs_n < N
+
+    # Pointers in batch offset
+    x_ptrs = x_ptr + (offs_m[:, None] * stride_xm + offs_k[None, :] * stride_xk)
+    qw_ptrs = qw_ptr + ((offs_k[None, :] // 8) * stride_qwk + offs_n[:, None] * stride_qwn)
+    sc_ptrs = sc_ptr + ((offs_n[:, None] // group_size) * stride_scg + offs_n[:, None] * stride_scn)
+    zp_ptrs = zp_ptr + ((offs_n[:, None] // group_size) * stride_zpg + offs_n[:, None] * stride_zpn)
+
+    accum = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        a = tl.load(x_ptrs, mask=mask_m[:, None] & mask_k[None, :], other=0.0)
+        qwp = tl.load(qw_ptrs, mask=mask_k[None, :] & mask_n[:, None], other=0)
+        scales = tl.load(sc_ptrs, mask=mask_n[:, None], other=0.0)
+        zps    = tl.load(zp_ptrs, mask=mask_n[:, None], other=0.0)
+
+        # unpack 8x INT4 per int32
+        local_offs = (offs_k % 8) * 4         # (BLOCK_SIZE_K,) -> 0,4,8,...,28
+        q4_mask    = 0xF                      # 4 bits
+        qw_int4    = (qwp >> local_offs) & q4_mask
+        qw_fp      = (qw_int4.to(tl.float32) - zps) * scales
+
+        # accumulate matmul
+        accum += tl.dot(a, qw_fp)
+
+        # advance
+        x_ptrs += BLOCK_SIZE_K * stride_xk
+        qw_ptrs += (BLOCK_SIZE_K // 8) * stride_qwk
+
+    if SPLIT_K > 1:
+        o_blk_ptrs = o_ptr + offs_m[:, None] * stride_om + offs_n[None, :] * stride_on
+        mask_mn = mask_m[:, None] & mask_n[None, :]
+        tl.atomic_add(o_blk_ptrs, accum, mask=mask_mn)
+    else:
+        o_blk_ptrs = o_ptr + offs_m[:, None] * stride_om + offs_n[None, :] * stride_on
+        mask_mn = mask_m[:, None] & mask_n[None, :]
+        tl.store(o_blk_ptrs, accum, mask=mask_mn)
+
+
+# ------------------------------------------------------------------
+# High-level wrapper launching quantized matmul kernel
+# ------------------------------------------------------------------
+def matmul_dequantize_int4_s2(x: torch.Tensor,
+                              qweight_int32: torch.Tensor,
+                              scale: torch.Tensor,
+                              zero_point: torch.Tensor,
+                              split_k: int = 1):
+    """
+    Launch INT4 GEMM:  x @ dequantize(qw)
+
+    x         : (M, K) fp16/bf16
+    qw        : (K//8, N) int32 packed
+    scale/zp  : (num_groups, N) fp16/bf16
+    Returns   : (M, N) fp16/bf16
+    """
+    assert x.dim() == 2
+    assert qweight_int32.dim() == 2
+    assert scale.dim() == 2
+    assert zero_point.dim() == 2
+    M, K = x.shape
+    K8, N = qweight_int32.shape
+    assert K == K8 * 8
+
+    group_size = K // scale.shape[0]
+    output = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    def grid(META):
+        return (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']), split_k)
+
+    matmul_kernel[grid](
+        x, qweight_int32, scale, zero_point, output,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight_int32.stride(0), qweight_int32.stride(1),
+        scale.stride(0), scale.stride(1),
+        zero_point.stride(0), zero_point.stride(1),
+        output.stride(0), output.stride(1),
+        group_size,
+        BLOCK_SIZE_M=64, BLOCK_SIZE_N=64, BLOCK_SIZE_K=32,
+        SPLIT_K=split_k,
+    )
+    if split_k > 1:
+        # Reduction here, currently left to caller
+        pass
+    return output
+
+
+# ------------------------------------------------------------------
+# Quantization utilities
+# ------------------------------------------------------------------
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    """
+    Convert fp tensor to INT4 packed (8 int4 per int32), return (qint32, scale, zero_point)
+    """
+    *rest, N = x.shape
+    x = x.reshape(-1, N).contiguous()
+
+    pad = (group_size - (N % group_size)) % group_size
+    if pad:
+        x = torch.nn.functional.pad(x, (0, pad))
+    x = x.view(-1, group_size)
+
+    # per-group min/max -> scale, zero-pt
+    x_min = x.min(dim=-1, keepdim=True)[0]
+    x_max = x.max(dim=-1, keepdim=True)[0]
+    x_max = torch.max(x_max, x_min + 1e-7)            # ensure non-degenerate
+    scale = (x_max - x_min) / 15.0
+    zero_point = (-x_min / scale)
+
+    # quantize & clamp
+    xq = torch.round(x / scale + zero_point)
+    xq = xq.clamp(0, 15).to(torch.int32)
+
+    # reshape back to packed layout
+    xq = xq.view(-1)
+    # pack 8 int4 into int32 (order: lowest 4 bits first)
+    num_i32 = xq.numel() // 8
+    qw = torch.zeros(num_i32, dtype=torch.int32, device=x.device)
+    for shift in range(8):
+        qw |= (xq[shift::8] << (shift * 4))
+
+    # reshape back to original mapping
+    qw = qw.view(*rest, -1)
+    scale = scale.view(*rest, -1)
+    zero_point = zero_point.view(*rest, -1)
+    return qw, scale, zero_point
+
+
+def unpack_int4(q_packed: torch.Tensor, scale: torch.Tensor, zero_point: torch.Tensor):
+    """
+    (for testing) map packed INT4 back to fp32 tensor
+    """
+    shape = q_packed.shape[:-1] + (-1,)          # [-1] already N//2 for 4-bit
+    qw = q_packed.view(-1)
+    out = torch.zeros(qw.numel() * 8, dtype=torch.float32, device=qw.device)
+    for shift in range(8):
+        unpacked = (qw >> (shift * 4)) & 0xF
+        out[shift::8] = unpacked.to(torch.float32)
+    out = (out - zero_point.view(-1)) * scale.view(-1)
+    out = out.view(shape)
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_891149.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_891149.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_891149.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_891149.py.stdout
new file mode 100644
index 0000000..87179ca
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_891149.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_891149 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_912380.py b/src/temp/gen/int4_matmul.py_gen_triton_code_912380.py
new file mode 100644
index 0000000..d933b46
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_912380.py
@@ -0,0 +1,232 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+##############################################
+# Triton kernel(s)
+##############################################
+
+@triton.autotune(
+    configs=[
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_k = tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)
+
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    offs_k_step = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_off = offs_m[:, None] * stride_am + offs_k_step[None, :] * stride_ak
+    b_off = (offs_k_step[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    bs_off = (offs_k_step[:, None] // group_size) * stride_bsk + offs_n[None, :] * stride_bsn
+    bzp_off = (offs_k_step[:, None] // group_size) * stride_bzpk + (offs_n[None, :] // 8) * stride_bzpn
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k_idx in range(0, num_pid_k):
+        kk = k_idx * BLOCK_SIZE_K * SPLIT_K
+        mask_k = (kk + offs_k_step[None, :]) < K
+
+        a = tl.load(a_ptr + a_off, mask=offs_m[:, None] < M, other=0.0)
+        b = tl.load(b_ptr + b_off, mask=mask_k, other=0)
+
+        bs = tl.load(bs_ptr + bs_off, mask=mask_k, other=1.0)
+        bzp = tl.load(bzp_ptr + bzp_off, mask=mask_k, other=0)
+
+        shift = (kk + offs_k_step)[None, :] % 8 * 4
+        shift_zp = offs_n[None, :] % 8 * 4
+
+        nib = (b >> shift) & 0xF
+        z = (bzp >> shift_zp) & 0xF
+
+        b_deq = (nib - z) * bs
+        acc += tl.dot(a, b_deq.to(a.dtype))
+
+        a_off += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_off += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+        bs_off += (BLOCK_SIZE_K * SPLIT_K // group_size) * stride_bsk
+        bzp_off += (BLOCK_SIZE_K * SPLIT_K // group_size) * stride_bzpk
+
+    c_ptrs = c_ptr + offs_m[:, None] * stride_cm + offs_n[None, :] * stride_cn
+    mask_c = (offs_m[:, None] < M) & (offs_n[None, :] < N)
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, acc, mask=mask_c)
+    else:
+        tl.atomic_add(c_ptrs, acc, mask=mask_c)
+
+
+##############################################
+# Python wrappers
+##############################################
+
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    qzeros: torch.Tensor,
+    group_size: int = 128
+) -> torch.Tensor:
+    assert x.is_contiguous()
+    assert qweight.is_contiguous()
+    M, K = x.shape
+    N = scales.shape[1]
+    out = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+    matmul_kernel[grid](
+        x, qweight, out,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        out.stride(0), out.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return out
+
+
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, None]:
+    """
+    quantize weight matrix (K, N) to INT4 packed (K, N//8) plus per_group scale/zero_point.
+    Scale / zero_point when per_group have shape (K//group_size, N).
+    """
+    w = weights.to(torch.float32)
+    K, N = w.shape
+    assert N % group_size == 0, "N must be divisible by group_size"
+
+    w_ = w.view(-1, group_size)
+    wmin = w_.min(dim=1, keepdim=True)[0]
+    wmax = w_.max(dim=1, keepdim=True)[0]
+    scales = (wmax - wmin) / 15.0
+    zeros = (-wmin / scales).round().clamp(0, 15)
+
+    quantized = torch.round((w_ - wmin) / scales).clamp(0, 15).to(torch.uint8)
+
+    dw = quantized.shape[1]
+    packed = torch.zeros(
+        quantized.shape[0],
+        (dw + 1) // 2,                   # two nibbles per byte
+        dtype=torch.int32,
+        device=quantized.device
+    )
+
+    idx_even = torch.arange(0, dw, 2, device=quantized.device)
+    idx_odd  = torch.arange(1, dw, 2, device=quantized.device)
+
+    packed_even = quantized[:, idx_even] & 0xF
+    packed_odd  = (quantized[:, idx_odd] & 0xF) << 4
+    packed[:, idx_even // 2] = packed_even + packed_odd
+
+    packed = packed.view(K, N // 8)
+    scales = scales.view(K, N // group_size).contiguous()
+    zeros  = zeros.view(K, N // group_size).contiguous()
+    return packed.contiguous(), scales, zeros, None
+
+
+def unpack_int4(weights: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    """
+    revert packed (K, N//8) into fp tensor (K*8, N).
+    """
+    Kq, N = weights.shape
+    K, _ = scales.shape
+    N_orig = scales.shape[1] * group_size
+
+    unpacked = torch.empty(K, N * 8, dtype=scales.dtype, device=weights.device)
+
+    flat = weights.view(-1)
+
+    for b in range(8):
+        nib = (flat >> (b * 4)) & 0xF
+        unpacked[:, b::8] = nib.view(K, N)
+
+    unpacked = unpacked.view(K, N * 8)
+    scales = scales.view(-1, N).repeat_interleave(group_size, dim=0)
+    zeros  = zeros.view(-1, N).repeat_interleave(group_size, dim=0)
+    return (unpacked.float() - zeros) * scales
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_912380.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_912380.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_912380.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_912380.py.stdout
new file mode 100644
index 0000000..82f1811
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_912380.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_912380 due to Index put requires the source and destination dtypes match, got Int for the destination and Byte for the source.
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_925632.py b/src/temp/gen/int4_matmul.py_gen_triton_code_925632.py
new file mode 100644
index 0000000..d407859
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_925632.py
@@ -0,0 +1,299 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K', 'NO_GROUPS'],
+)
+@triton.jit
+def gptq_gemm_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g, stride_zeros_n,
+    groupsize, NO_GROUPS: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+):
+    bits = 4
+    infearure_per_bits = 8
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_k = tl.cdiv(K, BLOCK_SIZE_K)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k[:, None] // infearure_per_bits) * stride_bk + offs_bn[None, :] * stride_bn)
+
+    scales_ptrs = scales_ptr + offs_bn * stride_scales_n
+    zeros_ptrs  = zeros_ptr  + ((offs_bn // infearure_per_bits) * stride_zeros_n)
+
+    shifter    = ((offs_k % infearure_per_bits) * bits)[:, None]
+    zeros_shift = ((offs_bn % infearure_per_bits) * bits)[None, :]
+
+    if NO_GROUPS:
+        scales = tl.load(scales_ptrs)
+        zeros  = tl.load(zeros_ptrs)
+        zeros_int = (zeros >> zeros_shift) & 0xF
+        zeros = zeros_int * scales
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, num_pid_k):
+        a = tl.load(a_ptrs, mask=offs_am[:, None] < M, other=0.0)
+        b_i32 = tl.load(b_ptrs)
+        b_u8  = (b_i32 >> shifter) & 0xF
+        b_fp  = b_u8.to(tl.float32)
+
+        if not NO_GROUPS:
+            g_id = k // (groupsize // BLOCK_SIZE_K)
+            ptr_s = scales_ptrs + g_id * stride_scales_g
+            ptr_z = zeros_ptrs  + g_id * stride_zeros_g
+            scales = tl.load(ptr_s)
+            zeros  = tl.load(ptr_z)
+            zeros_int = (zeros >> zeros_shift) & 0xF
+            zeros = zeros_int * scales
+
+        b = b_fp * scales - zeros
+        accumulator += tl.dot(a, b)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K // infearure_per_bits) * stride_bk
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    tl.store(c_ptrs, accumulator, mask=mask)
+
+
+def matmul_dequantize_int4_gptq(x: torch.FloatTensor,
+                                 qweight: torch.IntTensor,
+                                 scales: torch.FloatTensor,
+                                 qzeros: torch.IntTensor,
+                                 group_size) -> torch.FloatTensor:
+    assert x.dim() == 2 and qweight.dim() == 2
+    assert x.shape[-1] == (qweight.shape[0] * 8), "x inner dim mismatch"
+    assert x.is_contiguous(), "x must be contiguous"
+
+    M, K = x.shape
+    N = qweight.shape[1]
+    output = torch.empty((M, N), device=x.device, dtype=torch.float16)
+
+    def grid(META): return (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),)
+
+    gptq_gemm_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0),  output.stride(1),
+        scales.stride(0)  if scales.dim() > 1 else 0,
+        scales.stride(1),
+        qzeros.stride(0)  if qzeros.dim() > 1 else 0,
+        qzeros.stride(1),
+        group_size, group_size == K,
+    )
+    return output
+
+
+configs_s2 = [
+    triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 128,'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+]
+
+
+@triton.autotune(configs=configs_s2, key=['M', 'N', 'K'])
+@triton.jit
+def matmul_dequantize_int4_kernel(a_ptr, b_ptr, c_ptr, scales_ptr, zeros_ptr,
+                                  stride_am, stride_ak,
+                                  stride_bk, stride_bn,
+                                  stride_cm, stride_cn,
+                                  stride_scales_g, stride_scales_n,
+                                  stride_zeros_g, stride_zeros_n,
+                                  M, N, K,
+                                  groupsize,
+                                  BLOCK_SIZE_M: tl.constexpr,
+                                  BLOCK_SIZE_N: tl.constexpr,
+                                  BLOCK_SIZE_K: tl.constexpr,
+                                  SPLIT_K: tl.constexpr):
+    pid = tl.program_id(axis=0)
+    pid_z = tl.program_id(axis=1)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_k = tl.cdiv(K, BLOCK_SIZE_K)
+    GROUP_SIZE_M_local = 8
+    num_pid_in_group = GROUP_SIZE_M_local * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M_local
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M_local)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_n = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = (pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K))
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_cur = offs_k[None, :] + k * BLOCK_SIZE_K * SPLIT_K
+        valid_k = k_cur < K
+
+        scale_ptrs = scales_ptr + (k_cur // groupsize) * stride_scales_g + offs_n[None, :] * stride_scales_n
+        zeros_ptrs = zeros_ptr  + (k_cur // groupsize) * stride_zeros_g  + (offs_n[None, :] // 8) * stride_zeros_n
+
+        a = tl.load(a_ptrs, mask=valid_k, other=0.0)
+        b_i32 = tl.load(b_ptrs, mask=valid_k, other=0)
+
+        scales = tl.load(scale_ptrs, mask=valid_k, other=0.0)
+        zeros  = tl.load(zeros_ptrs, mask=valid_k, other=0)
+
+        b_shift = (k_cur % 8) * 4
+        zeros_shift = ((offs_n[None, :] % 8) * 4)
+        b_i4 = (b_i32 >> b_shift) & 0xF
+        zp_i4 = (zeros >> zeros_shift) & 0xF
+        b_fp = (b_i4 - zp_i4).to(tl.float16) * scales.to(tl.float16)
+
+        acc += tl.dot(a.to(tl.float16), b_fp)
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, acc, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, acc, mask=mask)
+
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor,
+                              qweight: torch.IntTensor,
+                              scales: torch.FloatTensor,
+                              qzeros: torch.IntTensor,
+                              groupsize: int = 128) -> torch.FloatTensor:
+    assert x.is_contiguous() and qweight.is_contiguous()
+    M, K = x.shape
+    K_, N = qweight.shape
+    assert K * 8 // 4 == K_, "K dim mismatch"
+    assert scales.shape == zeros.shape == (N, K // groupsize)
+
+    c = torch.empty((M, N), device=x.device, dtype=torch.float16)
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']), META['SPLIT_K'])
+    matmul_dequantize_int4_kernel[grid](
+        x, qweight, c, scales, qzeros,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        c.stride(0),  c.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        M, N, K,
+        groupsize,
+    )
+    return c
+
+
+def quantize_int4(w: torch.Tensor, groupsize: int = 128):
+    assert w.dim() == 2
+    w = w.float()
+    oc, ic = w.shape
+    assert ic % groupsize == 0
+
+    w = w.reshape(oc, ic // groupsize, groupsize)
+    wmax = w.amax(dim=2, keepdim=True)
+    wmin = w.amin(dim=2, keepdim=True)
+    scale = (wmax - wmin) / 15
+    zero = (-wmin / scale).round().clamp(0, 15)
+    scale = scale.squeeze(-1)
+    zero  = zero.squeeze(-1)
+
+    int_w = torch.round((w - wmin) / scale.unsqueeze(-1)).clamp(0, 15).to(torch.int8)
+
+    out = torch.zeros(oc, ic // 8, dtype=torch.int32, device=w.device)
+    for i in range(0, ic, 8):
+        packed = 0
+        for j in range(8):
+            packed |= int_w[:, i // groupsize, i % groupsize + j] << (j * 4)
+        out[:, i // 8] = packed
+
+    return out.reshape(oc, -1), scale.half(), zero.half()
+
+
+def unpack_int4(w_packed: torch.IntTensor, scale: torch.Tensor, zero: torch.Tensor, groupsize: int = 128):
+    oc, ic_int = w_packed.shape
+    ic = ic_int * 8
+    w_bits = torch.empty(oc, ic, dtype=torch.float32, device=w_packed.device)
+    for i in range(ic):
+        shift = (i % 8) * 4
+        w_bits[:, i] = torch.bitwise_and(torch.bitwise_right_shift(w_packed[:, i // 8], shift), 0xF).float()
+
+    scale = scale.unsqueeze(-1).expand_as(w_bits)
+    zero  = zero.unsqueeze(-1).expand_as(w_bits)
+    return (scale * w_bits - zero).half()
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_925632.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_925632.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_925632.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_925632.py.stdout
new file mode 100644
index 0000000..9629ab6
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_925632.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_925632 due to quantize_int4() got an unexpected keyword argument 'group_size'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py b/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py
new file mode 100644
index 0000000..9c38158
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py
@@ -0,0 +1,277 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=2, num_warps=8),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k[:, None] // 8) * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        k_offset = k * BLOCK_SIZE_K * SPLIT_K
+        mask_a = (offs_am[:, None] < M) & (offs_k[None, :] + k_offset < K)
+        mask_b = (offs_k[:, None] + k_offset < K) & (offs_bn[None, :] < N)
+
+        a = tl.load(a_ptrs + k_offset * stride_ak, mask=mask_a, other=0.0)
+        b = tl.load(b_ptrs + (k_offset // 8) * stride_bk, mask=mask_b, other=0.0)
+
+        group_idx = (offs_k[:, None] + k_offset) // group_size
+        bs_ptrs = bs_ptr + group_idx * stride_bsk + offs_bn[None, :] * stride_bsn
+        bzp_ptrs = bzp_ptr + group_idx * stride_bzpk + (offs_bn[None, :] // 8) * stride_bzpn
+
+        bs = tl.load(bs_ptrs, mask=mask_b, other=0.0)
+        bzp = tl.load(bzp_ptrs, mask=mask_b, other=0.0)
+
+        b_shift = ((offs_k[:, None] + k_offset) % 8) * 4
+        bzp_shift = (offs_bn[None, :] % 8) * 4
+
+        int4_b = (b >> b_shift) & 0xF
+        int4_bzp = (bzp >> bzp_shift) & 0xF
+
+        fp_b = ((int4_b - int4_bzp) * bs).to(tl.float16)
+        accumulator += tl.dot(a.to(tl.float16), fp_b)
+
+    c = accumulator.to(tl.float16)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    if SPLIT_K > 1:
+        tl.atomic_add(c_ptrs, c, mask=mask_c)
+    else:
+        tl.store(c_ptrs, c, mask=mask_c)
+
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor, qweight: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128
+) -> torch.Tensor:
+    assert x.is_contiguous(), "Input x must be contiguous"
+    assert qweight.is_contiguous(), "qweight must be contiguous"
+    assert scales.is_contiguous(), "scales must be contiguous"
+    assert zeros.is_contiguous(), "zeros must be contiguous"
+
+    M, K = x.shape
+    N = scales.shape[1]
+
+    output = torch.empty((M, N), device=x.device, dtype=torch.float16)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, zeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        zeros.stride(0), zeros.stride(1),
+        group_size,
+        GROUP_SIZE_M=8,
+        SPLIT_K=1,
+    )
+    return output
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE': 128}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE': 64}, num_stages=2, num_warps=4),
+    ],
+    key=['num_rows', 'num_cols'],
+)
+@triton.jit
+def quantize_int4_kernel(
+    src_ptr, dst_ptr, scales_ptr, zeros_ptr,
+    num_rows, num_cols,
+    stride_sr, stride_sc,
+    stride_dr, stride_dc,
+    stride_scale,
+    BLOCK_SIZE: tl.constexpr, GROUP_SIZE: tl.constexpr,
+):
+    row = tl.program_id(0)
+    group = tl.program_id(1)
+    cols_per_int32 = 8
+
+    group_start = group * GROUP_SIZE
+    group_end = tl.minimum(group_start + GROUP_SIZE, num_cols)
+    num_ints = (GROUP_SIZE + cols_per_int32 - 1) // cols_per_int32
+
+    col_offsets = group_start + tl.arange(0, BLOCK_SIZE)
+
+    max_val = tl.full([BLOCK_SIZE], -float('inf'), dtype=tl.float32)
+    min_val = tl.full([BLOCK_SIZE], float('inf'), dtype=tl.float32)
+
+    for offset in range(0, GROUP_SIZE, BLOCK_SIZE):
+        mask = (col_offsets + offset) < group_end
+        src_offs = src_ptr + row * stride_sr + (col_offsets + offset) * stride_sc
+        vals = tl.load(src_offs, mask=mask, other=0.0)
+        max_val = tl.where(mask, tl.maximum(max_val, vals), max_val)
+        min_val = tl.where(mask, tl.minimum(min_val, vals), min_val)
+
+    max_val = tl.max(max_val)
+    min_val = tl.min(min_val)
+
+    scale = (max_val - min_val) / 15.0
+    zero = -min_val / scale
+
+    scale_idx = row * (num_cols // GROUP_SIZE) + group
+    tl.store(scales_ptr + scale_idx, scale.to(tl.float16))
+    tl.store(zeros_ptr + scale_idx, zero.to(tl.float16))
+
+    for offset in range(0, GROUP_SIZE, BLOCK_SIZE):
+        mask = (col_offsets + offset) < group_end
+        src_offs = src_ptr + row * stride_sr + (col_offsets + offset) * stride_sc
+        vals = tl.load(src_offs, mask=mask, other=0.0)
+
+        q = tl.clamp((vals / scale + zero).to(tl.int32), 0, 15)
+
+        int32_ptrs = dst_ptr + row * stride_dr + ((group_start + offset) // cols_per_int32) * stride_dc
+
+        for i_offset in range(0, BLOCK_SIZE, cols_per_int32):
+            i = offset + i_offset
+            if i < GROUP_SIZE:
+                packed = tl.full([1], 0, dtype=tl.int32)
+                for ch in range(cols_per_int32):
+                    idx = i_offset + ch
+                    val = q[idx] if (group_start + i + ch) < num_cols else tl.full([], 0, dtype=tl.int32)
+                    packed = tl.bitwise_or(packed, tl.left_shift(val & 0xF, ch * 4))
+                addr = int32_ptrs + (i // cols_per_int32) * stride_dc
+                tl.store(addr, packed)
+
+def quantize_int4(weight: torch.Tensor, group_size: int = 128) -> tuple:
+    assert weight.dim() == 2, "weight must be 2D"
+    num_rows, num_cols = weight.shape
+    group_size = min(group_size, num_cols)
+    assert num_cols % group_size == 0
+
+    packed = torch.empty(
+        (num_rows, num_cols // 8),
+        dtype=torch.int32,
+        device=weight.device
+    )
+    scales = torch.empty(
+        (num_rows, num_cols // group_size),
+        dtype=torch.float16,
+        device=weight.device
+    )
+    zeros = torch.empty_like(scales)
+
+    def grid():
+        return (
+            num_rows,
+            num_cols // group_size,
+        )
+
+    quantize_int4_kernel[grid](
+        weight, packed, scales, zeros,
+        num_rows, num_cols,
+        weight.stride(0), weight.stride(1),
+        packed.stride(0), packed.stride(1),
+        scales.stride(0),
+        GROUP_SIZE=group_size,
+    )
+    return packed, scales, zeros
+
+def unpack_int4(qw_packed: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    assert qw_packed.dim() == 2 and scales.dim() == 2 and zeros.dim() == 2
+    num_rows = qw_packed.size(0)
+    num_cols = scales.size(1) * group_size
+    weight = torch.empty((num_rows, num_cols), dtype=torch.float16, device=qw_packed.device)
+
+    for row in range(num_rows):
+        for group in range(scales.size(1)):
+            scale = scales[row, group].item()
+            zero = zeros[row, group].item()
+            start_col = group * group_size
+            end_col = start_col + group_size
+            for col in range(start_col, end_col, 8):
+                if (col // 8) >= qw_packed.size(1):
+                    continue
+                packed = qw_packed[row, col // 8].item()
+                for k in range(8):
+                    val = (packed >> (4 * k)) & 0xF
+                    rescaled = val * scale + zero
+                    idx = col + k
+                    if idx < num_cols:
+                        weight[row, idx] = rescaled
+    return weight
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py.stdout
new file mode 100644
index 0000000..d09f3ed
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_927195.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_927195 due to module 'triton.language' has no attribute 'bitwise_or'
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_93329.py b/src/temp/gen/int4_matmul.py_gen_triton_code_93329.py
new file mode 100644
index 0000000..5d9a59e
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_93329.py
@@ -0,0 +1,250 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# int4 de-quant helpers
+@triton.jit
+def _dequantize_int4_unpack(xi32, mask0=0x0f, mask1=0xf0):
+    xi0 = (xi32 & mask0).to(tl.int8)
+    xi1 = ((xi32 & mask1) >> 4).to(tl.int8)
+    return xi0, xi1
+
+
+@triton.jit
+def _dequantize_int4_kernel(ptr, scales_ptr, zeros_ptr, M, N,
+                            stride_q, stride_s, stride_z,
+                            BLOCK_M: tl.constexpr,
+                            BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    q_offsets = (rm[:, None] * stride_q + (rn // 8)[None, :])
+    scales_offsets = (rm[:, None] * stride_s + (rn // 8)[None, :])
+    zeros_offsets = (rm[:, None] * stride_z + (rn // 8)[None, :])
+
+    mask_m = rm < M
+    mask_n = rn < N
+    mask = mask_m[:, None] & mask_n[None, :]
+
+    packed = tl.load(ptr + q_offsets, mask=mask, other=0)
+    s = tl.load(scales_ptr + scales_offsets, mask=mask, other=1.0)
+    z = tl.load(zeros_ptr + zeros_offsets, mask=mask, other=0.0)
+
+    offsets_0 = (rn % 8) * 4
+    offsets_1 = offsets_0 + 4
+    i0, i1 = _dequantize_int4_unpack(packed)
+    v0 = (i0.to(tl.float32) - z) * s
+    v1 = (i1.to(tl.float32) - z) * s
+
+    return v0, v1
+
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr,
+                  scales_ptr, zeros_ptr,
+                  M, N, K,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_eval_k, stride_eval_n,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  GROUP_SIZE_M: tl.constexpr,
+                  SPLIT_K: tl.constexpr,
+                  EVEN_K: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    pid_k = tl.program_id(2)
+
+    n_blocks_m = tl.cdiv(M, BLOCK_SIZE_M)
+    n_blocks_n = tl.cdiv(N, BLOCK_SIZE_N)
+
+    if GROUP_SIZE_M == 1:
+        group_id = 0
+        first_pid_m = 0
+    else:
+        group_id = pid_m // GROUP_SIZE_M
+        first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(n_blocks_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid_m % group_size_m)
+
+    if SPLIT_K > 1:
+        local_k = tl.cdiv(K, SPLIT_K)
+        k_offset = pid_k * local_k
+    else:
+        local_k = K
+        k_offset = 0
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = k_offset + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    scales_ptrs = scales_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+    zeros_ptrs = zeros_ptr + ((offs_k[:, None] // 8) * stride_eval_k) + offs_n[None, :] * stride_eval_n
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, local_k, BLOCK_SIZE_K):
+        if EVEN_K or (k + BLOCK_SIZE_K <= local_k):
+            a = tl.load(a_ptrs, mask=offs_k[None, :] < local_k - k, other=0.0, eviction_policy="evict_last")
+            block_scale = tl.load(scales_ptrs, mask=offs_k[:, None] < local_k - k, other=1.0)
+            block_zero = tl.load(zeros_ptrs, mask=offs_k[:, None] < local_k - k, other=0.0)
+
+            packed_b = tl.load(b_ptrs, mask=offs_k[:, None] < local_k - k, other=0)
+            k_idx = (offs_k[:, None] % 8) * 4
+            val_low = (packed_b & 0x0F).to(tl.int8).to(tl.float32)
+            val_high = ((packed_b >> 4) & 0x0F).to(tl.int8).to(tl.float32)
+            b_low = (val_low - block_zero) * block_scale
+            b_high = (val_high - block_zero) * block_scale
+
+            acc = tl.dot(a, b_low, acc)
+            a_shift = tl.load(a_ptrs + stride_bk * (1 if EVEN_K else 8), mask=offs_k[None, :] + 8 < local_k - k, other=0.0, eviction_policy="evict_last")
+            acc = tl.dot(a_shift, b_high, acc)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K // 8) * stride_bk
+        scales_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+        zeros_ptrs += (BLOCK_SIZE_K // 8) * stride_eval_k
+
+    if SPLIT_K == 1:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.store(c_ptrs, acc.to(c_ptrs.type.element_ty), mask=c_mask)
+    else:
+        offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+        offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+        c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :] + pid_k * M * N
+        c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+        tl.atomic_add(c_ptrs, acc, mask=c_mask)
+
+
+def matmul_dequantize_int4_s2(a, int4b_compressed, scales, zeros, M, N, K):
+    c_dtype = a.dtype
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 128
+    BLOCK_SIZE_K = 32
+    SPLIT_K = 1
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']),
+                         triton.cdiv(N, META['BLOCK_SIZE_N']),
+                         SPLIT_K)
+
+    if SPLIT_K > 1:
+        c = torch.empty((SPLIT_K, M, N), dtype=torch.float32, device=a.device)
+    else:
+        c = torch.empty((M, N), dtype=c_dtype, device=a.device)
+
+    EVEN_K = K % 32 == 0
+
+    matmul_kernel[grid](a, int4b_compressed, c,
+                        scales, zeros,
+                        M, N, K,
+                        a.stride(0), a.stride(1),
+                        int4b_compressed.stride(0), int4b_compressed.stride(1),
+                        c.stride(0) if c.dim() == 2 else c.stride(1),
+                        c.stride(1) if c.dim() == 2 else c.stride(2),
+                        scales.stride(0), scales.stride(1),
+                        BLOCK_SIZE_M=BLOCK_SIZE_M,
+                        BLOCK_SIZE_N=BLOCK_SIZE_N,
+                        BLOCK_SIZE_K=BLOCK_SIZE_K,
+                        GROUP_SIZE_M=8,
+                        SPLIT_K=SPLIT_K,
+                        EVEN_K=EVEN_K)
+    return c if SPLIT_K == 1 else c.sum(dim=0)
+
+
+def quantize_int4(x: torch.Tensor, group_size: int = 128):
+    org_shape = x.shape
+    x = x.view(-1, group_size)
+    x_fp32 = x.float()
+    x_min = x_fp32.amin(dim=-1, keepdim=True)
+    x_max = x_fp32.amax(dim=-1, keepdim=True)
+    scale = (x_max - x_min) / 15.0
+    zero = (-x_min / scale + 0.5).clamp(0, 15)
+
+    int4 = (((x_fp32 - x_min) / scale + 0.5).clamp(0, 15)).round().to(torch.int8)
+
+    int4 = int4.view(-1)
+    packed = torch.zeros(x.size(0), x.size(1) // 2, dtype=torch.int32, device=x.device)
+    int4_even = int4[::2].to(torch.int32)
+    int4_odd = int4[1::2].to(torch.int32)
+    packed = int4_even | (int4_odd << 4)
+    packed = packed.view(org_shape[0], org_shape[1] // 2)
+    scale = scale.squeeze(-1)
+    zero = zero.squeeze(-1)
+    return packed, scale, zero
+
+
+def unpack_int4(packed: torch.Tensor, scale: torch.Tensor, zero: torch.Tensor, group_size: int = 128):
+    M, Nhalf = packed.shape
+    N = Nhalf * 2
+    unpacked = torch.empty(M, N, dtype=torch.float16, device=packed.device)
+
+    packed = packed.int()
+    for i in range(M):
+        for j in range(Nhalf):
+            low = (packed[i, j] & 0x0F).to(torch.float32)
+            high = ((packed[i, j] >> 4) & 0x0F).to(torch.float32)
+            group_idx = j * 2 // group_size
+            val_low = (low - zero[i, group_idx]) * scale[i, group_idx]
+            val_high = (high - zero[i, group_idx]) * scale[i, group_idx]
+            unpacked[i, 2 * j] = val_low.to(torch.float16)
+            unpacked[i, 2 * j + 1] = val_high.to(torch.float16)
+    return unpacked
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_93329.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_93329.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_93329.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_93329.py.stdout
new file mode 100644
index 0000000..1df9f8f
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_93329.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_93329 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_942564.py b/src/temp/gen/int4_matmul.py_gen_triton_code_942564.py
new file mode 100644
index 0000000..1e26b96
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_942564.py
@@ -0,0 +1,229 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# -----------------  Triton Kernel (INT4 matrix multiply) -----------------
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},
+                      num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},
+                      num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},
+                      num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},
+                      num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},
+                      num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},
+                      num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},
+                      num_stages=2, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},
+                      num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M':  32, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 256, 'GROUP_SIZE_M': 16, 'SPLIT_K': 1},
+                      num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M':  32, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 256, 'GROUP_SIZE_M': 16, 'SPLIT_K': 2},
+                      num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    pid_k = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k_start = pid_k * BLOCK_SIZE_K
+    offs_k = offs_k_start + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    accum = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        cur_k = offs_k_start + k * BLOCK_SIZE_K * SPLIT_K + tl.arange(0, BLOCK_SIZE_K)
+        mask_k = cur_k[None, :] < K
+        mask_n = offs_n[None, :] < N
+        load_a = tl.load(a_ptrs, mask=mask_k & (offs_m[:, None] < M), other=0.0)
+        packed_b = tl.load(b_ptrs, mask=mask_k & mask_n, other=0)
+        packed_b = packed_b.to(tl.int32)
+
+        group_idx = cur_k[None, :] // group_size
+        scale_ptr = scales_ptr + offs_n[None, :] * stride_bsn
+        zero_ptr  = zeros_ptr  + (offs_n[None, :] // 8) * stride_bzpn
+        scale_ptr += group_idx * stride_bsk
+        zero_ptr  += group_idx * stride_bzpk
+
+        scale = tl.load(scale_ptr, mask=mask_k & mask_n, other=0.0)
+        zero_packed = tl.load(zero_ptr, mask=mask_k & mask_n, other=0)
+        zero_packed = zero_packed.to(tl.int32)
+
+        shift = (cur_k[None, :] % 8) * 4
+        zp_shift = (offs_n[None, :] % 8) * 4
+
+        int_b = (packed_b >> shift) & 0xF
+        int_zp = (zero_packed >> zp_shift) & 0xF
+        b = ((int_b.to(tl.float32) - int_zp.to(tl.float32)) * scale)
+        accum += tl.dot(load_a, b)
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K * stride_bk // 8)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, accum, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, accum, mask=mask)
+
+# ----------------- Python helpers ----------------------------------------
+
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    zeros: torch.Tensor,
+    group_size: int = 128
+) -> torch.Tensor:
+    assert x.is_contiguous()
+    assert qweight.is_contiguous()
+
+    M, K = x.shape
+    Kw, N = qweight.shape
+    assert Kw == K // 2, "Packed weight shape mismatch"
+    output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, zeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        zeros.stride(0), zeros.stride(1),
+        group_size,
+    )
+    return output
+
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+    assert weights.dim() == 2
+    K, N = weights.shape
+    assert K % group_size == 0
+    num_groups = K // group_size
+
+    flat = weights.float().view(num_groups, group_size, N)
+    mn, mx = flat.aminmax(dim=1)
+    scale = (mx - mn) / 15.0
+    scale = torch.where(scale == 0, 1.0, scale)
+    zero = (-mn / scale)
+    q = ((flat / scale[:, :, None] + zero[:, :, None] + 0.5).floor()).clamp(0, 15).to(torch.int32)
+
+    q = q.view(K, N)
+    q_low = q[::2]
+    q_high = q[1::2]
+    packed = (q_low & 0xF) | ((q_high & 0xF) << 4)
+
+    return packed, scale.squeeze(1), zero.squeeze(1)
+
+def unpack_int4(w: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    assert w.dtype == torch.int32
+    K_qua, N = w.shape
+    K = K_qua * 2
+    assert K % group_size == 0
+    num_groups = K // group_size
+
+    w0 = (w & 0xF).to(torch.float32)
+    w1 = ((w >> 4) & 0xF).to(torch.float32)
+    unpacked = torch.zeros(K, N, dtype=torch.float32, device=w.device)
+    unpacked[::2] = w0
+    unpacked[1::2] = w1
+
+    scales = scales.view(num_groups, 1, N).repeat(1, group_size, 1).reshape(K, N)
+    zeros = zeros.view(num_groups, 1, N).repeat(1, group_size, 1).reshape(K, N)
+    return (unpacked - zeros) * scales
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_942564.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_942564.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_942564.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_942564.py.stdout
new file mode 100644
index 0000000..6ed9a2d
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_942564.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_942564 due to The size of tensor a (128) must match the size of tensor b (4096) at non-singleton dimension 1
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_977481.py b/src/temp/gen/int4_matmul.py_gen_triton_code_977481.py
new file mode 100644
index 0000000..6a02111
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_977481.py
@@ -0,0 +1,205 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# ---------- Kernel ----------
+
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64 , 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1},  num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    scales_ptr, zeros_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_scales_g, stride_scales_n,
+    stride_zeros_g, stride_zeros_n,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr, SPLIT_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    pid_k = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    BLOCK_K_S = BLOCK_SIZE_K * SPLIT_K
+    offs_k = pid_k * BLOCK_K_S + tl.arange(0, BLOCK_K_S)
+
+    a_ptrs = a_ptr + offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k[:, None] // 8) * stride_bk + offs_bn[None, :] * stride_bn
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_K_S)):
+        k_actual = k * BLOCK_K_S
+        mask_k = k_actual + offs_k[None :] < K
+        a_mask = (offs_am[:, None] < M) & mask_k
+
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+
+        b_int32 = tl.load(b_ptrs)
+        offs_k_shift = k_actual + offs_k[:, None]
+        group_idx = offs_k_shift // group_size
+        scales = tl.load(scales_ptr + group_idx * stride_scales_g + offs_bn[None, :] * stride_scales_n)
+        zeros = tl.load(
+            zeros_ptr
+            + group_idx * stride_zeros_g
+            + (offs_bn[None, :] // 8) * stride_zeros_n
+        )
+
+        shift = (offs_k_shift % 8) * 4
+        zp_shift = (offs_bn[None, :] % 8) * 4
+
+        b_int4 = (b_int32 >> shift) & 0xF
+        b_zp = (zeros >> zp_shift) & 0xF
+        b_deq = (b_int4 - b_zp) * scales
+        acc += tl.dot(a.to(tl.float16), b_deq.to(tl.float16))
+
+        a_ptrs += BLOCK_K_S * stride_ak
+        b_ptrs += (BLOCK_K_S // 8) * stride_bk
+
+    c = acc.to(tl.float16)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask_c)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask_c)
+
+# ---------- Quantization/Utility ----------
+
+def quantize_int4(w: torch.tensor, group_size: int = 128):
+    assert w.dim() == 2
+    _, N = w.shape
+    w = w.view(-1, group_size, N)
+    wmin = w.amin(dim=1, keepdim=True)
+    wmax = w.amax(dim=1, keepdim=True)
+    scale = (wmax - wmin) / 15.
+    zero = (-wmin / scale).round().clamp(0, 15).to(torch.int32)
+
+    wq = ((w / scale + zero).round().clamp(0, 15)).to(torch.int32).to(torch.uint8)
+
+    packed = (wq[0::2] | (wq[1::2] << 4)).view(-1, N).contiguous()
+
+    scale = scale.squeeze(1).contiguous()
+    zero = zero.squeeze(1).contiguous()
+    zero_packed = (zero[..., 0::2] | (zero[..., 1::2] << 4)).contiguous()
+    return packed, scale, zero_packed, None
+
+def matmul_dequantize_int4_s2(
+    x: torch.FloatTensor,
+    qweight: torch.IntTensor,
+    scales: torch.FloatTensor,
+    qzeros: torch.IntTensor,
+    group_size: int = 128,
+    output=None
+) -> torch.FloatTensor:
+    assert x.is_contiguous()
+    M, Kin = x.shape
+    Kw, N = qweight.shape
+    K = Kw * 8
+    assert Kin == K, "A inner dimension must match unpacked weight rows"
+
+    if output is None:
+        output = torch.empty((M, N), device=x.device, dtype=torch.float16)
+    else:
+        output.fill_(0.0)
+
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K']
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size
+    )
+    return output
+
+def unpack_int4(b_packed: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    b_packed = b_packed.contiguous()
+    Kw, N = b_packed.shape
+    K = Kw * 8
+    b_uint = torch.zeros((K, N), dtype=torch.uint8, device=b_packed.device)
+    b_uint[0::2, :] = b_packed & 0xF
+    b_uint[1::2, :] = (b_packed >> 4) & 0xF
+
+    group_idx = torch.arange(K, device=b_packed.device) // group_size
+    scl = scales[group_idx, :]
+    z = zeros[group_idx, :]
+
+    z_expanded = torch.zeros_like(scales)
+    for i in range(N // 8):
+        z_expanded[:, i*8:(i+1)*8] = ((z[:, i:i+1] >> (4 * torch.arange(8).to(z.device))) & 0xF)
+
+    z_bound = z_expanded[group_idx, :]
+    fp = (b_uint.to(torch.float32) - z_bound) * scl
+    return fp
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_977481.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_977481.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_977481.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_977481.py.stdout
new file mode 100644
index 0000000..8ea4c22
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_977481.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_977481 due to A inner dimension must match unpacked weight rows
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_991002.py b/src/temp/gen/int4_matmul.py_gen_triton_code_991002.py
new file mode 100644
index 0000000..5875bf7
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_991002.py
@@ -0,0 +1,214 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+##############################################
+# Triton kernel(s)
+##############################################
+
+@triton.autotune(
+    configs=[
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 1, 'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+        triton.Config({'SPLIT_K': 2, 'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,  'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8}, num_stages=4, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+    reset_to_zero=['c_ptr']
+)
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    bs_ptr, bzp_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    stride_bsk, stride_bsn,
+    stride_bzpk, stride_bzpn,
+    group_size,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    pid_z = tl.program_id(1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_k = tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)
+
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_m = tl.where(offs_m < M, offs_m, 0)
+    offs_n = tl.where(offs_n < N, offs_n, 0)
+
+    offs_k_step = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k_step[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k_step[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k_idx in range(0, num_pid_k):
+        kk = k_idx * BLOCK_SIZE_K * SPLIT_K
+        mask_k = kk + offs_k_step[None, :]
+
+        a = tl.load(a_ptrs, mask=(offs_m[:, None] < M) & (mask_k < K), other=0.0)
+        b = tl.load(b_ptrs, mask=mask_k < K, other=0)
+
+        offs_gp = (kk + offs_k_step)[None, :] // group_size
+        bs_ptrs = bs_ptr + offs_gp * stride_bsk + offs_n[None, :] * stride_bsn
+        bzp_ptrs = bzp_ptr + offs_gp * stride_bzpk + (offs_n[None, :] // 8) * stride_bzpn
+
+        bs = tl.load(bs_ptrs, mask=mask_k < K, other=1.0)
+        bzp = tl.load(bzp_ptrs, mask=mask_k < K, other=0)
+
+        mask_n = offs_n[None, :]
+        shift = (kk + offs_k_step)[:, None] % 8 * 4
+        shift_zp = mask_n % 8 * 4
+
+        nib = (b >> shift) & 0xF
+        zp = (bzp >> shift_zp) & 0xF
+        fp_b = (nib - zp) * bs
+        acc += tl.dot(a, fp_b.to(a.dtype))
+
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_bk
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_m = offs_cm < M
+    mask_n = offs_cn < N
+    offs_cm = tl.where(mask_m, offs_cm, 0)
+    offs_cn = tl.where(mask_n, offs_cn, 0)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = mask_m[:, None] & mask_n[None, :]
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, acc, mask=mask)
+    else:
+        tl.atomic_add(c_ptrs, acc, mask=mask)
+
+
+##############################################
+# Python wrappers
+##############################################
+
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor,
+    qweight: torch.Tensor,
+    scales: torch.Tensor,
+    qzeros: torch.Tensor,
+    group_size: int = 128
+) -> torch.Tensor:
+    assert x.is_contiguous()
+    assert qweight.is_contiguous()
+    M, K = x.shape
+    N = scales.shape[1]
+    scales = scales.contiguous()
+    qzeros = qzeros.contiguous()
+    out = torch.empty((M, N), dtype=x.dtype, device=x.device)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        1,
+    )
+    matmul_kernel[grid](
+        x, qweight, out,
+        scales, qzeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        out.stride(0), out.stride(1),
+        scales.stride(0), scales.stride(1),
+        qzeros.stride(0), qzeros.stride(1),
+        group_size,
+    )
+    return out
+
+
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, None]:
+    w = weights.to(torch.float32)
+    K, N = w.shape
+    assert K % group_size == 0
+
+    w_ = w.view(K // group_size, group_size, N)
+    wmin = w_.amin(dim=1, keepdim=True)
+    wmax = w_.amax(dim=1, keepdim=True)
+    scales = ((wmax - wmin) / 15.0).squeeze(1)
+    zeros = ((-wmin) / scales).round().clamp(0, 15).squeeze(1)
+
+    quantized = torch.round((w_ - wmin) / scales).clamp(0, 15).to(torch.uint8)
+    quantized = torch.bitwise_and(quantized, 0xF)
+    quantized = quantized.view(K, N)
+
+    packed = torch.zeros(K, N // 8, dtype=torch.int32, device=w.device)
+    for i in range(8):
+        packed |= (quantized[:, i::8] << (4 * i)).to(torch.int32)
+    return packed.contiguous(), scales.contiguous(), zeros.contiguous(), None
+
+
+def unpack_int4(weights: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor, group_size: int = 128) -> torch.Tensor:
+    Kq, N = weights.shape
+    K = Kq * 1
+    unpacked = torch.zeros(K, N * 8, device=weights.device, dtype=scales.dtype)
+    w_flat = weights.view(-1)
+    for b in range(8):
+        nib = (w_flat >> (b * 4)) & 0xF
+        unpacked.view(-1)[b::8] = nib.float()
+    unpacked = unpacked.view(K, N * 8)
+    scales = scales.view(-1, N).repeat_interleave(group_size, dim=0)[:K]
+    zeros = zeros.view(-1, N).repeat_interleave(group_size, dim=0)[:K]
+    return (unpacked - zeros) * scales
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_991002.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_991002.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_991002.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_991002.py.stdout
new file mode 100644
index 0000000..ae078c8
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_991002.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_991002 due to The size of tensor a (128) must match the size of tensor b (32) at non-singleton dimension 1
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_995030.py b/src/temp/gen/int4_matmul.py_gen_triton_code_995030.py
new file mode 100644
index 0000000..07814f5
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_995030.py
@@ -0,0 +1,234 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# =========================
+# Triton kernel (batched INT4 matrix multiply)
+# =========================
+@triton.autotune(
+    configs=[
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 256,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=4, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 128,
+                       'BLOCK_SIZE_K': 32, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64, 'BLOCK_SIZE_N': 64,
+                       'BLOCK_SIZE_K': 64, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 128, 'GROUP_SIZE_M': 8, 'SPLIT_K': 1}, num_stages=2, num_warps=4),
+        triton.Config({'BLOCK_SIZE_M': 32, 'BLOCK_SIZE_N': 32,
+                       'BLOCK_SIZE_K': 128, 'GROUP_SIZE_M': 8, 'SPLIT_K': 2}, num_stages=2, num_warps=4),
+    ],
+    key=['M', 'N', 'K'],
+)
+@triton.jit
+def matmul_kernel(a_ptr, b_ptr, c_ptr,
+                  scales_ptr, zeros_ptr,
+                  M, N, K,
+                  stride_am, stride_ak,
+                  stride_bk, stride_bn,
+                  stride_cm, stride_cn,
+                  stride_bsk, stride_bsn,
+                  stride_bzpk, stride_bzpn,
+                  group_size,
+                  BLOCK_SIZE_M: tl.constexpr,
+                  BLOCK_SIZE_N: tl.constexpr,
+                  BLOCK_SIZE_K: tl.constexpr,
+                  GROUP_SIZE_M: tl.constexpr,
+                  SPLIT_K: tl.constexpr):
+
+    pid = tl.program_id(axis=0)
+    pid_k = tl.program_id(axis=1)
+
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_m = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_n = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k_step = pid_k * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    k_step = BLOCK_SIZE_K * SPLIT_K
+    k_last = min((pid_k + 1) * BLOCK_SIZE_K, K)
+
+    a_ptrs = a_ptr + offs_m[:, None] * stride_am + offs_k_step[None, :] * stride_ak
+    b_ptrs = b_ptr + (offs_k_step[:, None] // 8) * stride_bk + offs_n[None, :] * stride_bn
+
+    acc = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, k_step)):
+        k_off = k * k_step
+        a_mask = (offs_k_step[None, :] + k_off < K) & (offs_m[:, None] < M)
+        b_mask = (offs_k_step[:, None] + k_off < K) & (offs_n[None, :] < N)
+
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+        packed = tl.load(b_ptrs, mask=b_mask, other=0)
+
+        gidx = ((offs_k_step[:, None] + k_off) // group_size)[:, 0]
+        gidx = tl.view(gidx, (BLOCK_SIZE_K, 1))
+        scales = tl.load(scales_ptr + gidx * stride_bsk + offs_n[None, :] * stride_bsn,
+                         mask=b_mask, other=0)
+
+        bzp = tl.load(zeros_ptr + gidx * stride_bzpk + (offs_n[None, :] // 8) * stride_bzpn,
+                      mask=b_mask, other=0)
+
+        shift = ((offs_k_step[:, None] + k_off) % 8) * 4
+        int_b = ((packed >> shift) & 0xF).to(tl.float32)
+
+        zp_shift = (offs_n[None, :] % 8) * 4
+        int_zp = ((bzp >> zp_shift) & 0xF).to(tl.float32)
+
+        b = (int_b - int_zp) * scales
+        acc += tl.dot(a, b)
+
+        a_ptrs += k_step * stride_ak
+        b_ptrs += (k_step // 8) * stride_bk
+
+    c = acc.to(c_ptr.dtype.element_ty)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    if SPLIT_K == 1:
+        tl.store(c_ptrs, c, mask=mask_c)
+    else:
+        tl.atomic_add(c_ptrs, c, mask=mask_c)
+
+# =========================
+# Front-end helpers
+# =========================
+def quantize_int4(weights: torch.Tensor, group_size: int = 128) -> tuple[
+        torch.Tensor, torch.Tensor, torch.Tensor]:
+    assert weights.dim() == 2
+    K, N = weights.shape
+    assert K % group_size == 0
+
+    num_groups = K // group_size
+    w_groups = weights.view(num_groups, group_size, N)
+    wmin, wmax = w_groups.aminmax(dim=1)
+    scale = (wmax - wmin) / 15.0
+    scale = torch.where(scale == 0,
+                        torch.tensor(1.0, dtype=scale.dtype, device=scale.device),
+                        scale)
+    zero_fp = -wmin / scale
+    q = ((w_groups / scale.unsqueeze(1) + zero_fp.unsqueeze(1) + 0.5)
+         .floor().clamp(0, 15).to(torch.int32))
+
+    q = q.view(K, N)
+    packed = torch.empty((K // 8, N), dtype=torch.int32, device=weights.device)
+    for k in range(0, 8):
+        packed |= (q[k::8] & 0xF) << (k * 4)
+
+    zero_int = zero_fp.round().int().clamp(0, 15)
+    zeros_packed = torch.empty((num_groups, N // 8), dtype=torch.int32, device=weights.device)
+    for n8 in range(0, 8):
+        zeros_packed |= ((zero_int.view(num_groups * N)[n8::8] & 0xF)
+                         << (n8 * 4))
+    zeros_packed = zeros_packed.view(num_groups, N // 8)
+
+    return packed, scale, zeros_packed
+
+
+def unpack_int4(w, scales, zeros, group_size: int = 128):
+    K = w.shape[0] * 8
+    N = w.shape[1]
+    assert w.ndim == 2 and scales.ndim == 2 and zeros.ndim == 2
+    num_groups = scales.size(0)
+
+    deq = torch.zeros((K, N), dtype=torch.float32, device=w.device)
+    for k in range(K):
+        for n in range(N):
+            k_block = k // 8
+            k_nibble = k % 8
+            val = (w[k_block, n] >> (k_nibble * 4)) & 0xF
+            group = k // group_size
+            gp_n = n // 8
+            znib = n % 8
+            zp = (zeros[group, gp_n] >> (znib * 4)) & 0xF
+            deq[k, n] = (float(val) - float(zp)) * scales[group, n]
+    return deq
+
+
+def matmul_dequantize_int4_s2(x: torch.FloatTensor,
+                              qweight: torch.IntTensor,
+                              scales: torch.FloatTensor,
+                              zeros: torch.IntTensor,
+                              group_size: int = 128) -> torch.FloatTensor:
+    assert x.is_contiguous()
+    assert qweight.is_contiguous()
+    M, K = x.shape
+    Kw, N = qweight.shape
+    assert K == Kw * 8
+
+    output = torch.empty((M, N), device=x.device, dtype=x.dtype)
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+        META['SPLIT_K'],
+    )
+    matmul_kernel[grid](
+        x, qweight, output,
+        scales, zeros,
+        M, N, K,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1),
+        output.stride(0), output.stride(1),
+        scales.stride(0), scales.stride(1),
+        zeros.stride(0), zeros.stride(1),
+        group_size,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+
+    group_size = 128
+
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+
+    
+
+    # Test case
+
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+
+    
+
+    results = {
+
+        "test_case_1": triton_output
+
+    }
+
+    
+
+    return results
+
+
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_995030.py.stderr b/src/temp/gen/int4_matmul.py_gen_triton_code_995030.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/int4_matmul.py_gen_triton_code_995030.py.stdout b/src/temp/gen/int4_matmul.py_gen_triton_code_995030.py.stdout
new file mode 100644
index 0000000..dd6bd75
--- /dev/null
+++ b/src/temp/gen/int4_matmul.py_gen_triton_code_995030.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module int4_matmul.py_gen_triton_code_995030 due to The size of tensor a (512) must match the size of tensor b (16384) at non-singleton dimension 1
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py
new file mode 100644
index 0000000..04f121e
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py
@@ -0,0 +1,137 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DY += row * stride_x_row
+    DX += row * stride_x_row
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0)
+    rstd = 1.0 / tl.sqrt(var + eps)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * (1.0 / (var + eps)) * rstd * x
+
+    tl.store(DX + cols, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+    M, N = x.shape
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError(f"This l2 norm does not support feature dim >= {BLOCK_N}.")
+    
+    grid = lambda META: (M,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N,
+    )
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_143388.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py
new file mode 100644
index 0000000..6477695
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py
@@ -0,0 +1,139 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,  # pointer to the input
+    DY,  # pointer to the output gradient
+    DX,  # pointer to the input gradient
+    stride_x_row,  # how much to increase the pointer when moving by 1 row
+    N,  # number of columns in X
+    eps,  # epsilon to avoid division by zero
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DX += row * stride_x_row
+    DY += row * stride_x_row
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x)
+    rstd = 1 / tl.sqrt(var + eps)
+    
+    dx = dy * rstd - tl.sum(dy * x) * (1 / (var + eps)) * rstd * x
+
+    tl.store(DX + cols, dx, mask=mask)
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    eps: float = 1e-5,
+) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.reshape(-1, dy.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+    N = x.shape[-1]
+    M = x.shape[0]
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This layer norm doesn't support feature dim >= 64KB.")
+
+    grid = (M,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N,
+    )
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_167554.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py
new file mode 100644
index 0000000..6dcdcb2
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py
@@ -0,0 +1,139 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,  # pointer to the input
+    DY,  # pointer to the output gradient
+    DX,  # pointer to the input gradient
+    stride_x_row,  # how much to increase the pointer when moving by 1 row
+    N,  # number of columns in X
+    eps,  # epsilon to avoid division by zero
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DX += row * stride_x_row
+    DY += row * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    x = tl.load(X + cols, mask=cols < N, other=0.0).to(tl.float32)
+    x = tl.where(cols < N, x, 0.0)
+    var = tl.sum(x * x)
+    rstd = 1 / tl.sqrt(var + eps)
+    mask = cols < N
+    dy = tl.load(DY + cols, mask=cols < N, other=0.0).to(tl.float32)
+    dy = tl.where(cols < N, dy, 0.0)
+    gy = tl.sum(dy * x)
+    dx = dy * rstd - gy * (1 / (var + eps)) * rstd * x
+    tl.store(DX + cols, dx, mask=mask)
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    eps: float = 1e-5,
+) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+
+    M, N = x.shape
+    dx = torch.empty_like(x)
+
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This l2 norm doesn't support feature dim >= 64KB.")
+
+    _l2_norm_bwd_kernel[(M,)](
+        x,
+        dy,
+        dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_215639.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py
new file mode 100644
index 0000000..02115ee
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py
@@ -0,0 +1,148 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    M,
+    N,
+    eps,
+    stride_x_row,
+    stride_dy_row,
+    stride_dx_row,
+    BLOCK_N: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    if pid >= M:
+        return
+
+    x_ptr = X + pid * stride_x_row
+    dy_ptr = DY + pid * stride_dy_row
+    dx_ptr = DX + pid * stride_dx_row
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x = tl.load(x_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+
+    x_sq = x * x
+    var = tl.sum(x_sq, axis=0) / N
+    rstd = tl.rsqrt(var + eps)
+
+    x_hat = x * rstd
+
+    term1 = dy * rstd
+    term2 = tl.sum(dy * x, axis=0) * (1.0 / (var + eps)) * rstd * x
+
+    dx = term1 - term2
+
+    tl.store(dx_ptr + cols, dx, mask=mask)
+
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    eps: float,
+) -> torch.Tensor:
+    M, N = x.shape
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise ValueError("Feature dimension too large")
+
+    dx = torch.empty_like(x)
+
+    _l2_norm_bwd_kernel[(M,)](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        eps,
+        x.stride(0),
+        dy.stride(0),
+        dx.stride(0),
+        BLOCK_N=BLOCK_N,
+    )
+
+    return dx
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py.stdout
new file mode 100644
index 0000000..7b8ba93
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_220059.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_220059 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py
new file mode 100644
index 0000000..c128a9c
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py
@@ -0,0 +1,140 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    M,
+    N,
+    eps,
+    stride_x_row,
+    stride_dy_row,
+    stride_dx_row,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    if row >= M:
+        return
+
+    offs_n = tl.arange(0, BLOCK_N)
+    mask = offs_n < N
+
+    x_ptr = X + row * stride_x_row
+    dy_ptr = DY + row * stride_dy_row
+    dx_ptr = DX + row * stride_dx_row
+
+    x = tl.load(x_ptr + offs_n, mask=mask, other=0.0)
+    dy = tl.load(dy_ptr + offs_n, mask=mask, other=0.0)
+
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+    sum_dy_x = tl.sum(dy * x, axis=0)
+    dx = dy * rstd - sum_dy_x * (1.0 / (var + eps)) * rstd * x / N
+    tl.store(dx_ptr + offs_n, dx, mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float):
+    shape = x.shape
+    x = x.reshape(-1, shape[-1])
+    dy = dy.reshape(-1, shape[-1])
+    M, N = x.shape
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension {N} cannot exceed {BLOCK_N}")
+
+    dx = torch.empty_like(x)
+    n_rows = M
+
+    grid = lambda META: (n_rows,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        eps,
+        x.stride(0),
+        dy.stride(0),
+        dx.stride(0),
+        BLOCK_N=BLOCK_N,
+    )
+    dx = dx.reshape(shape)
+    return dx
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py.stdout
new file mode 100644
index 0000000..2120130
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_28664.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_28664 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py
new file mode 100644
index 0000000..e484149
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py
@@ -0,0 +1,147 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(X, DY, DX, M, N, eps, stride_x_row, stride_dy_row, stride_dx_row, BLOCK_N: tl.constexpr):
+    row_id = tl.program_id(0)
+    if row_id >= M:
+        return
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row_id * stride_x_row + cols
+    dy_ptrs = DY + row_id * stride_dy_row + cols
+    dx_ptrs = DX + row_id * stride_dx_row + cols
+
+    x = tl.load(x_ptrs, mask=mask, other=0.0)
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0)
+
+    x_fp32 = x.to(tl.float32)
+    var = tl.sum(x_fp32 * x_fp32, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    dy_fp32 = dy.to(tl.float32)
+    dot = tl.sum(dy_fp32 * x_fp32, axis=0)
+    coeff = dot * (1.0 / (var + eps)) * rstd
+    dx = dy_fp32 * rstd - coeff * x_fp32
+
+    dx_out = dx.to(DX.type.element_ty)
+    tl.store(dx_ptrs, dx_out, mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float):
+    assert x.shape == dy.shape, "Shape mismatch between x and dy"
+
+    original_shape = x.shape
+    if x.dim() > 2:
+        x = x.view(-1, x.shape[-1])
+        dy = dy.view(-1, dy.shape[-1])
+
+    M, N = x.shape
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise ValueError("Feature dimension N too large for BLOCK_N")
+
+    dx = torch.empty_like(x)
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    stride_x_row = x.stride(0) if x.stride(-1) == 1 else x.stride(-2)
+    stride_dy_row = dy.stride(0) if dy.stride(-1) == 1 else dy.stride(-2)
+    stride_dx_row = dx.stride(0) if dx.stride(-1) == 1 else dx.stride(-2)
+
+    _l2_norm_bwd_kernel[(M,)](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        eps,
+        stride_x_row,
+        stride_dy_row,
+        stride_dx_row,
+        BLOCK_N=BLOCK_N,
+    )
+
+    dx = dx.view(original_shape)
+    return dx
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py.stdout
new file mode 100644
index 0000000..ef7dd90
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_338946.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_338946 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py
new file mode 100644
index 0000000..38df419
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py
@@ -0,0 +1,146 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    M,
+    N,
+    eps,
+    stride_x_row,
+    stride_dy_row,
+    stride_dx_row,
+    BLOCK_N: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    if pid >= M:
+        return
+
+    x_ptr = X + pid * stride_x_row
+    dy_ptr = DY + pid * stride_dy_row
+    dx_ptr = DX + pid * stride_dx_row
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x = tl.load(x_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+
+    x_sq = x * x
+    var = tl.sum(x_sq, axis=0) / N
+    rstd = tl.rsqrt(var + eps)
+
+    term1 = dy * rstd
+    term2 = tl.sum(dy * x, axis=0) * (1.0 / (var + eps)) * rstd * x
+
+    dx = term1 - term2
+
+    tl.store(dx_ptr + cols, dx, mask=mask)
+
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    eps: float,
+) -> torch.Tensor:
+    M, N = x.shape
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise ValueError("Feature dimension too large")
+
+    dx = torch.empty_like(x)
+
+    _l2_norm_bwd_kernel[(M,)](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        eps,
+        x.stride(0),
+        dy.stride(0),
+        dx.stride(0),
+        BLOCK_N=BLOCK_N,
+    )
+
+    return dx
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py.stdout
new file mode 100644
index 0000000..0c64cfe
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_347725.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_347725 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py
new file mode 100644
index 0000000..34d30ce
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py
@@ -0,0 +1,170 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    M,
+    N,
+    eps,
+    stride_x_row,
+    stride_dy_row,
+    stride_dx_row,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    # Compute the base pointers for this row
+    x_ptrs = X + row * stride_x_row + cols
+    dy_ptrs = DY + row * stride_dy_row + cols
+    dx_ptrs = DX + row * stride_dx_row + cols
+
+    # Load X and DY for this row
+    x = tl.load(x_ptrs, mask=mask, other=0.0)
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0)
+
+    # Compute variance and reciprocal standard deviation
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+    
+    # Compute the gradient contribution
+    term1 = dy * rstd
+    term2 = tl.sum(dy * x, axis=0) * rstd / (var + eps) * x
+    
+    dx = term1 - term2
+    
+    # Store the result
+    tl.store(dx_ptrs, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float) -> torch.Tensor:
+    # Ensure inputs are contiguous
+    x = x.contiguous()
+    dy = dy.contiguous()
+    
+    # Get original shape
+    original_shape = x.shape
+    
+    # Reshape to 2D if necessary
+    M = x.numel() // original_shape[-1]
+    N = original_shape[-1]
+    x = x.view(M, N)
+    dy = dy.view(M, N)
+    
+    # Determine optimal block size
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    
+    # Ensure N doesn't exceed BLOCK_N
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension {N} is too large")
+    
+    # Allocate output
+    dx = torch.empty_like(x)
+    
+    # Configure kernel launch
+    kernel_args = {
+        'BLOCK_N': BLOCK_N,
+    }
+
+    # Launch kernel
+    grid = (M,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        eps,
+        x.stride(0),
+        dy.stride(0),
+        dx.stride(0),
+        **kernel_args
+    )
+    
+    # Restore original shape
+    dx = dx.view(original_shape)
+    
+    return dx
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py.stdout
new file mode 100644
index 0000000..641cfcc
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_387667.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_387667 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py
new file mode 100644
index 0000000..94313b6
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py
@@ -0,0 +1,134 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X, DY, DX, stride_x_row, stride_dy_row, stride_dx_row, N, eps,
+    BLOCK_N: tl.constexpr
+):
+    pid_row = tl.program_id(0)
+    offs_n = tl.arange(0, BLOCK_N)
+    mask = offs_n < N
+
+    x_ptrs = X + pid_row * stride_x_row + offs_n
+    dy_ptrs = DY + pid_row * stride_dy_row + offs_n
+    dx_ptrs = DX + pid_row * stride_dx_row + offs_n
+
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    mean = tl.sum(x) / N
+    var = tl.sum((x - mean) ** 2) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    gy = tl.sum(dy * x)
+    dx = dy * rstd - gy * (1.0 / (var + eps)) * rstd * x
+    dx = dx.to(DX.type.element_ty)
+
+    tl.store(dx_ptrs, dx, mask=mask)
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    dx: torch.Tensor,
+    N: int,
+    eps: float,
+):
+    M = x.numel() // N
+    x = x.view(M, N) if x.stride(-1) != 1 else x
+    dy = dy.view(M, N) if dy.stride(-1) != 1 else dy.contiguous()
+    x = x.contiguous()
+    dy = dy.contiguous()
+    dx = dx.view(M, N) if dx.stride(-1) != 1 else dx
+    dx = dx.contiguous()
+
+    max_block_n = triton.next_power_of_2(N)
+    BLOCK_N = max_block_n
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension {N} exceeds maximum block size {BLOCK_N}")
+
+    grid = (triton.cdiv(M, 1),)
+    _l2_norm_bwd_kernel[grid](
+        x, dy, dx,
+        x.stride(0), dy.stride(0), dx.stride(0),
+        N, eps,
+        BLOCK_N=BLOCK_N
+    )
+    return dx
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py.stdout
new file mode 100644
index 0000000..018c020
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_404776.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_404776 due to _l2_norm_bwd() missing 3 required positional arguments: 'dx', 'N', and 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py
new file mode 100644
index 0000000..418c292
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py
@@ -0,0 +1,132 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X, DY, DX, M, N, eps, stride_x_row, stride_dy_row, stride_dx_row, BLOCK_N: tl.constexpr
+):
+    row = tl.program_id(0)
+    if row >= M:
+        return
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row * stride_x_row + cols
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    dy_ptrs = DY + row * stride_dy_row + cols
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * (rstd * rstd * rstd / N) * x
+
+    dx_ptrs = DX + row * stride_dx_row + cols
+    tl.store(dx_ptrs, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    shape = x.shape
+    x = x.view(-1, shape[-1])
+    dy = dy.view(-1, shape[-1])
+    M, N = x.shape
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+
+    BLOCK_N = triton.next_power_of_2(N)
+
+    if N > BLOCK_N:
+        raise ValueError("N exceeds BLOCK_N")
+
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx, M, N, eps,
+        x.stride(0), dy.stride(0), dx.stride(0),
+        BLOCK_N=BLOCK_N
+    )
+
+    return dx.view(shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py.stdout
new file mode 100644
index 0000000..fd418ac
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_414029.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: l2_norm_bwd.py_gen_triton_code_414029.py
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py
new file mode 100644
index 0000000..418c292
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py
@@ -0,0 +1,132 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X, DY, DX, M, N, eps, stride_x_row, stride_dy_row, stride_dx_row, BLOCK_N: tl.constexpr
+):
+    row = tl.program_id(0)
+    if row >= M:
+        return
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row * stride_x_row + cols
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    dy_ptrs = DY + row * stride_dy_row + cols
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * (rstd * rstd * rstd / N) * x
+
+    dx_ptrs = DX + row * stride_dx_row + cols
+    tl.store(dx_ptrs, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    shape = x.shape
+    x = x.view(-1, shape[-1])
+    dy = dy.view(-1, shape[-1])
+    M, N = x.shape
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+
+    BLOCK_N = triton.next_power_of_2(N)
+
+    if N > BLOCK_N:
+        raise ValueError("N exceeds BLOCK_N")
+
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx, M, N, eps,
+        x.stride(0), dy.stride(0), dx.stride(0),
+        BLOCK_N=BLOCK_N
+    )
+
+    return dx.view(shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py.stdout
new file mode 100644
index 0000000..56bd86f
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_419949.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: l2_norm_bwd.py_gen_triton_code_419949.py
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py
new file mode 100644
index 0000000..a7270f3
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py
@@ -0,0 +1,128 @@
+
+import triton
+import triton.language as tl
+import torch
+
+@triton.jit
+def _l2_norm_bwd_kernel(X, DY, DX, _N, eps, stride_x_row, stride_dy_row, stride_dx_row, BLOCK_N: tl.constexpr):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < _N
+
+    x_ptrs  = X  + row * stride_x_row  + cols
+    dy_ptrs = DY + row * stride_dy_row + cols
+    dx_ptrs = DX + row * stride_dx_row + cols
+
+    x  = tl.load(x_ptrs,  mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    N = tl.sum(mask.to(tl.float32))
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * (1.0 / (var + eps)) * rstd * x / N
+    dx_out = dx.to(DX.dtype.element_ty)
+
+    tl.store(dx_ptrs, dx_out, mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    if x.shape != dy.shape:
+        raise ValueError("Shapes of x and dy must match")
+
+    original_shape = x.shape
+    x  = x.reshape(-1, x.shape[-1]).contiguous()
+    dy = dy.reshape(-1, dy.shape[-1]).contiguous()
+
+    M, N = x.shape
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise RuntimeError("Feature dimension N too large")
+
+    dx = torch.empty_like(x)
+
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx,
+        N,
+        eps,
+        x.stride(0),
+        dy.stride(0),
+        dx.stride(0),
+        BLOCK_N=BLOCK_N,
+    )
+
+    return dx.view(original_shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py.stdout
new file mode 100644
index 0000000..b1bac67
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_433589.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: l2_norm_bwd.py_gen_triton_code_433589.py
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py
new file mode 100644
index 0000000..3295b26
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py
@@ -0,0 +1,149 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(X, DY, DX, M, N, eps, stride_x_row, stride_dy_row, stride_dx_row, BLOCK_N: tl.constexpr):
+    row_id = tl.program_id(0)
+    if row_id >= M:
+        return
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row_id * stride_x_row + cols
+    dy_ptrs = DY + row_id * stride_dy_row + cols
+    dx_ptrs = DX + row_id * stride_dx_row + cols
+
+    x = tl.load(x_ptrs, mask=mask, other=0.0)
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0)
+
+    x_fp32 = x.to(tl.float32)
+    var = tl.sum(x_fp32 * x_fp32, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    dy_fp32 = dy.to(tl.float32)
+    dot = tl.sum(dy_fp32 * x_fp32, axis=0)
+    coeff = dot * (1.0 / (var + eps)) * rstd
+    dx = dy_fp32 * rstd - coeff * x_fp32
+
+    dx_out = dx.to(DX.type.element_ty)
+    tl.store(dx_ptrs, dx_out, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float):
+    assert x.shape == dy.shape, "Shape mismatch between x and dy"
+
+    original_shape = x.shape
+    if x.dim() > 2:
+        x = x.view(-1, x.shape[-1])
+        dy = dy.view(-1, dy.shape[-1])
+
+    M, N = x.shape
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise ValueError("Feature dimension N too large for BLOCK_N")
+
+    dx = torch.empty_like(x)
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    stride_x_row = x.stride(0) if x.stride(-1) == 1 else x.stride(-2)
+    stride_dy_row = dy.stride(0) if dy.stride(-1) == 1 else dy.stride(-2)
+    stride_dx_row = dx.stride(0) if dx.stride(-1) == 1 else dx.stride(-2)
+
+    _l2_norm_bwd_kernel[(M,)](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        eps,
+        stride_x_row,
+        stride_dy_row,
+        stride_dx_row,
+        BLOCK_N=BLOCK_N,
+    )
+
+    dx = dx.view(original_shape)
+    return dx
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py.stdout
new file mode 100644
index 0000000..51741ee
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_459560.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_459560 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py
new file mode 100644
index 0000000..46165e8
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py
@@ -0,0 +1,147 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X   += row * stride_x_row
+    DY  += row * stride_x_row
+    DX  += row * stride_x_row
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+    x  = tl.load(X  + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+
+    x_masked = tl.where(mask, x, 0.0)
+    var = tl.sum(x_masked * x_masked)
+    rstd = tl.math.rsqrt(var + eps)
+
+    dy_masked = tl.where(mask, dy, 0.0)
+    term1 = dy_masked * rstd
+    sum_dyx = tl.sum(dy_masked * x_masked)
+    term2 = sum_dyx * rstd * rstd * rstd * x_masked
+    dx = term1 - term2
+
+    tl.store(DX + cols, dx, mask=mask)
+
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    eps: float = 1e-5,
+):
+    x_shape_og = x.shape
+    x  = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+    N = x.shape[-1]
+    M = x.shape[0]
+
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This L2 norm backward does not support feature dim >= 64KB.")
+
+    # ROCm-friendly launch grid & stream model
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N,
+    )
+
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_486455.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py
new file mode 100644
index 0000000..d3ad64a
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py
@@ -0,0 +1,136 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,  # *tl.pointer
+    DY,  # *tl.pointer
+    DX,  # *tl.pointer
+    stride_x_row,  # tl.int32
+    N,  # tl.int32
+    eps,  # tl.float32
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DY += row * stride_x_row
+    DX += row * stride_x_row
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0) / N
+    rstd = 1.0 / tl.sqrt(var + eps)
+
+    dx = dy * rstd - (tl.sum(dy * x, axis=0) / N) * rstd * rstd * rstd * x
+
+    tl.store(DX + cols, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float):
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+    M, N = x.shape
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError(f"This l2 norm does not support feature dim >= {BLOCK_N}.")
+    with torch.cuda.device(x.device.index):
+        _l2_norm_bwd_kernel[(M,)](
+            x,
+            dy,
+            dx,
+            x.stride(0),
+            N,
+            eps,
+            BLOCK_N,
+        )
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py.stdout
new file mode 100644
index 0000000..6b921a9
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_493519.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_493519 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py
new file mode 100644
index 0000000..656a80b
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py
@@ -0,0 +1,136 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(X, DY, DX, M, N, stride_x_row, eps, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    if pid_m >= M:
+        return
+
+    offs_n = tl.arange(0, BLOCK_N)
+    mask = offs_n < N
+    x_ptrs = X + pid_m * stride_x_row + offs_n
+    dy_ptrs = DY + pid_m * N + offs_n
+    dx_ptrs = DX + pid_m * N + offs_n
+
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    term = tl.sum(dy * x) * (1.0 / (var + eps)) * rstd
+    dx = dy * rstd - term * x
+
+    tl.store(dx_ptrs, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-12):
+    if x.dim() > 2:
+        x = x.reshape(-1, x.shape[-1])
+    if dy.dim() > 2:
+        dy = dy.reshape(-1, dy.shape[-1])
+
+    M = x.shape[0]
+    N = x.shape[1]
+    dx = torch.empty_like(x)
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension N ({N}) exceeds block size BLOCK_N ({BLOCK_N}).")
+
+    _l2_norm_bwd_kernel[(M,)](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        x.stride(0),
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    return dx.reshape(x.shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py.stdout
new file mode 100644
index 0000000..6d368d5
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_570539.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: l2_norm_bwd.py_gen_triton_code_570539.py
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py
new file mode 100644
index 0000000..418c292
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py
@@ -0,0 +1,132 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X, DY, DX, M, N, eps, stride_x_row, stride_dy_row, stride_dx_row, BLOCK_N: tl.constexpr
+):
+    row = tl.program_id(0)
+    if row >= M:
+        return
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row * stride_x_row + cols
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    dy_ptrs = DY + row * stride_dy_row + cols
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * (rstd * rstd * rstd / N) * x
+
+    dx_ptrs = DX + row * stride_dx_row + cols
+    tl.store(dx_ptrs, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    shape = x.shape
+    x = x.view(-1, shape[-1])
+    dy = dy.view(-1, shape[-1])
+    M, N = x.shape
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+
+    BLOCK_N = triton.next_power_of_2(N)
+
+    if N > BLOCK_N:
+        raise ValueError("N exceeds BLOCK_N")
+
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx, M, N, eps,
+        x.stride(0), dy.stride(0), dx.stride(0),
+        BLOCK_N=BLOCK_N
+    )
+
+    return dx.view(shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py.stdout
new file mode 100644
index 0000000..a22ac98
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_597752.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: l2_norm_bwd.py_gen_triton_code_597752.py
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py
new file mode 100644
index 0000000..3445c92
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py
@@ -0,0 +1,147 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    M,
+    N,
+    eps,
+    stride_x_row,
+    stride_dy_row,
+    stride_dx_row,
+    BLOCK_N: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    if pid >= M:
+        return
+
+    x_ptr = X + pid * stride_x_row
+    dy_ptr = DY + pid * stride_dy_row
+    dx_ptr = DX + pid * stride_dx_row
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x = tl.load(x_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+
+    x_sq = x * x
+    var = tl.sum(x_sq * mask.to(tl.float32), axis=0) / tl.sum(mask.to(tl.float32), axis=0)
+    rstd = tl.rsqrt(var + eps)
+
+    term1 = dy * rstd
+    term2 = tl.sum(dy * x * mask.to(tl.float32), axis=0) / (tl.sum(mask.to(tl.float32), axis=0) * (var + eps)) * rstd * x
+
+    dx = term1 - term2
+
+    tl.store(dx_ptr + cols, dx, mask=mask)
+
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    eps: float,
+) -> torch.Tensor:
+    M = x.shape[0]
+    N = x.shape[-1]
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise ValueError("Feature dimension too large")
+
+    dx = torch.empty_like(x)
+
+    _l2_norm_bwd_kernel[(M,)](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        eps,
+        x.stride(0),
+        dy.stride(0),
+        dx.stride(0),
+        BLOCK_N=BLOCK_N,
+    )
+
+    return dx
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py.stdout
new file mode 100644
index 0000000..9b10096
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_637799.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_637799 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py
new file mode 100644
index 0000000..4feab41
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py
@@ -0,0 +1,130 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DX += row * stride_x_row
+    DY += row * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x * x, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    sum_dy_x = tl.sum(dy * x, axis=0)
+    dx = dy * rstd - sum_dy_x * rstd.pow(3) * x
+    tl.store(DX + cols, dx, mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+    dx = torch.empty_like(x)
+    N = x.shape[-1]
+    M = x.shape[0]
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This layer norm doesn't support feature dim >= 64KB.")
+    grid = (M,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py.stdout
new file mode 100644
index 0000000..9e02ec5
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_640557.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_640557 due to at 21:32:
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DX += row * stride_x_row
+    DY += row * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x * x, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    sum_dy_x = tl.sum(dy * x, axis=0)
+    dx = dy * rstd - sum_dy_x * rstd.pow(3) * x
+                                ^
+AttributeError("'tensor' object has no attribute 'pow'")
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py
new file mode 100644
index 0000000..6f9f408
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py
@@ -0,0 +1,132 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X, DY, DX, M, N, eps, stride_x_row, stride_dy_row, stride_dx_row, BLOCK_N: tl.constexpr
+):
+    row = tl.program_id(0)
+    if row >= M:
+        return
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row * stride_x_row + cols
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    dy_ptrs = DY + row * stride_dy_row + cols
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * (rstd * rstd * rstd / N) * x
+
+    dx_ptrs = DX + row * stride_dx_row + cols
+    tl.store(dx_ptrs, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float):
+    shape = x.shape
+    x = x.view(-1, shape[-1])
+    dy = dy.view(-1, shape[-1])
+    M, N = x.shape
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+
+    BLOCK_N = triton.next_power_of_2(N)
+
+    if N > BLOCK_N:
+        raise ValueError("N exceeds BLOCK_N")
+
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx, M, N, eps,
+        x.stride(0), dy.stride(0), dx.stride(0),
+        BLOCK_N=BLOCK_N
+    )
+
+    return dx.view(shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py.stdout
new file mode 100644
index 0000000..b537294
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_712104.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_712104 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py
new file mode 100644
index 0000000..418c292
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py
@@ -0,0 +1,132 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X, DY, DX, M, N, eps, stride_x_row, stride_dy_row, stride_dx_row, BLOCK_N: tl.constexpr
+):
+    row = tl.program_id(0)
+    if row >= M:
+        return
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row * stride_x_row + cols
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    dy_ptrs = DY + row * stride_dy_row + cols
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * (rstd * rstd * rstd / N) * x
+
+    dx_ptrs = DX + row * stride_dx_row + cols
+    tl.store(dx_ptrs, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    shape = x.shape
+    x = x.view(-1, shape[-1])
+    dy = dy.view(-1, shape[-1])
+    M, N = x.shape
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+
+    BLOCK_N = triton.next_power_of_2(N)
+
+    if N > BLOCK_N:
+        raise ValueError("N exceeds BLOCK_N")
+
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx, M, N, eps,
+        x.stride(0), dy.stride(0), dx.stride(0),
+        BLOCK_N=BLOCK_N
+    )
+
+    return dx.view(shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py.stdout
new file mode 100644
index 0000000..6c129f0
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_786715.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: l2_norm_bwd.py_gen_triton_code_786715.py
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py
new file mode 100644
index 0000000..8e494f1
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py
@@ -0,0 +1,134 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DX += row * stride_x_row
+    DY += row * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x * x, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    sum_dy_x = tl.sum(dy * x, axis=0)
+    dx = dy * rstd - sum_dy_x * rstd * rstd * rstd * x
+    tl.store(DX + cols, dx, mask=mask)
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    eps: float = 1e-5
+) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+    dx = torch.empty_like(x)
+    N = x.shape[-1]
+    M = x.shape[0]
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This layer norm doesn't support feature dim >= 64KB.")
+    grid = (M,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_827439.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py
new file mode 100644
index 0000000..03e94d0
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py
@@ -0,0 +1,136 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X, DY, DX,
+    M, N, eps,
+    stride_x_row,
+    stride_dy_row,
+    stride_dx_row,
+    BLOCK_N: tl.constexpr,
+):
+    row_id = tl.program_id(0)
+    if row_id >= M:
+        return
+
+    offs_n = tl.arange(0, BLOCK_N)
+    mask = offs_n < N
+
+    x_ptrs = X + row_id * stride_x_row + offs_n
+    dy_ptrs = DY + row_id * stride_dy_row + offs_n
+    dx_ptrs = DX + row_id * stride_dx_row + offs_n
+
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    mean = tl.sum(x, axis=0) / N
+    var = tl.sum((x - mean) * (x - mean), axis=0) / N
+    rstd = 1.0 / tl.math.sqrt(var + eps)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * (1.0 / (var + eps)) * rstd * x
+    tl.store(dx_ptrs, dx, mask=mask)
+
+
+def _l2_norm_bwd(
+    x: torch.Tensor,
+    dy: torch.Tensor,
+    eps: float,
+):
+    shape = list(x.shape)
+    x = x.view(-1, shape[-1])
+    dy = dy.view(-1, shape[-1])
+    assert x.shape == dy.shape, "x and dy must have the same shape"
+    M, N = x.shape
+    dx = torch.empty_like(x)
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise RuntimeError(f"This l2 norm does not support feature dim >= {BLOCK_N}.")
+
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx,
+        M, N, eps,
+        x.stride(0),
+        dy.stride(0),
+        dx.stride(0),
+        BLOCK_N=BLOCK_N,
+    )
+    return dx.view(*shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py.stdout
new file mode 100644
index 0000000..044ef3a
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_843690.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_843690 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py
new file mode 100644
index 0000000..c8e030e
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py
@@ -0,0 +1,147 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X, DY, DX, M, N,
+    stride_x_row,
+    stride_x_col,
+    stride_dy_row,
+    stride_dy_col,
+    stride_dx_row,
+    stride_dx_col,
+    eps,
+    BLOCK_N: tl.constexpr
+):
+    row_idx = tl.program_id(0)
+    if row_idx >= M:
+        return
+
+    offs_n = tl.arange(0, BLOCK_N)
+    mask = offs_n < N
+
+    x_ptr = X + row_idx * stride_x_row + offs_n * stride_x_col
+    dy_ptr = DY + row_idx * stride_dy_row + offs_n * stride_dy_col
+    dx_ptr = DX + row_idx * stride_dx_row + offs_n * stride_dx_col
+
+    x = tl.load(x_ptr, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptr, mask=mask, other=0.0).to(tl.float32)
+
+    x_sum = tl.sum(x * x)
+    var = x_sum / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    grad_x_part = tl.sum(dy * x)
+    coef = (1.0 / (var + eps)) * rstd * grad_x_part
+    dx = dy * rstd - coef * x
+
+    tl.store(dx_ptr, dx.to(tl.load(x_ptr).dtype), mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float):
+    assert x.shape == dy.shape, "x and dy must have the same shape"
+    if x.dim() > 2:
+        x = x.view(-1, x.shape[-1])
+        dy = dy.view(-1, dy.shape[-1])
+    orig_shape = x.shape
+
+    M, N = x.shape
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise RuntimeError(f"Feature dimension {N} exceeds allowed BLOCK_N={BLOCK_N}")
+
+    x = x.contiguous()
+    dy = dy.contiguous()
+
+    dx = torch.empty_like(x)
+
+    grid = lambda META: (M,)
+    _l2_norm_bwd_kernel[grid](
+        x, dy, dx, M, N,
+        x.stride(0), x.stride(1) if x.dim() == 2 else 0,
+        dy.stride(0), dy.stride(1) if dy.dim() == 2 else 0,
+        dx.stride(0), dx.stride(1) if dx.dim() == 2 else 0,
+        eps,
+        BLOCK_N=BLOCK_N
+    )
+
+    return dx.view(orig_shape)
+
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py.stdout
new file mode 100644
index 0000000..193c210
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_864396.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_bwd.py_gen_triton_code_864396 due to _l2_norm_bwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py
new file mode 100644
index 0000000..7f42365
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py
@@ -0,0 +1,135 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,          # pointer to the input
+    DY,         # pointer to the output gradient
+    DX,         # pointer to the input gradient
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X  += row * stride_x_row
+    DY += row * stride_x_row
+    DX += row * stride_x_row
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x  = tl.load(X  + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0)
+    scale_k = 1.0 / (var + eps)
+    rstd = tl.math.sqrt(scale_k)
+
+    dx = dy * rstd - tl.sum(dy * x, axis=0) * scale_k * rstd * x
+    tl.store(DX + cols, dx.to(DX.dtype.element_ty), mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    x_shape_og = x.shape
+    x  = x.reshape(-1, x_shape_og[-1])
+    dy = dy.reshape(-1, x_shape_og[-1])
+
+    if x.stride(1) != 1:
+        x = x.contiguous()
+    if dy.stride(1) != 1:
+        dy = dy.contiguous()
+
+    M, N = x.shape
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This L2-norm backward doesn't support feature dim >= 64KB.")
+
+    dx = torch.empty_like(x)
+
+    _l2_norm_bwd_kernel[(M,)](
+        x, dy, dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N,
+    )
+
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_885795.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py
new file mode 100644
index 0000000..2c64313
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py
@@ -0,0 +1,130 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    X += row * stride_x_row
+    DY += row * stride_x_row
+    DX += row * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+    x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(DY + cols, mask=mask, other=0.0).to(tl.float32)
+    x_masked = tl.where(mask, x, 0.0)
+    var = tl.sum(x_masked * x_masked)
+    rstd = 1 / tl.sqrt(var + eps)
+    dx = dy * rstd - tl.sum(dy * x_masked) * rstd / (var + eps) * x
+    tl.store(DX + cols, dx, mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+    dx = torch.empty_like(x)
+    N = x.shape[-1]
+    M = x.shape[0]
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("This layer norm doesn't support feature dim >= 64KB.")
+    grid = (M,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N,
+    )
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_960121.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py
new file mode 100644
index 0000000..6081fc8
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py
@@ -0,0 +1,139 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,           # pointer to input
+    DY,          # pointer to output grad
+    DX,          # pointer to input grad
+    stride_x_row,   # stride between rows
+    N,    # number of columns
+    eps,     # small epsilon
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+
+    base_x = X + row * stride_x_row
+    base_dy = DY + row * stride_x_row
+    base_dx = DX + row * stride_x_row
+
+    mask = cols < N
+    x = tl.load(base_x + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(base_dy + cols, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0)
+    rstd = 1.0 / tl.sqrt(var + eps)
+
+    coef = tl.sum(dy * x) * (1.0 / (var + eps)) * rstd
+    dx = dy * rstd - coef * x
+
+    tl.store(base_dx + cols, dx, mask=mask)
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-5):
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    dy = dy.reshape(-1, dy.shape[-1])
+
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    if dy.stride(-1) != 1:
+        dy = dy.contiguous()
+
+    assert x.shape == dy.shape
+    M, N = x.shape
+    dx = torch.empty_like(x)
+
+    MAX_FUSED_SIZE = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("Feature dimension too large for L2 backward kernel.")
+
+    grid = (M,)
+    _l2_norm_bwd_kernel[grid](
+        x,
+        dy,
+        dx,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+    return dx.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the backward L2 normalization
+
+def test_l2_norm_bwd():
+
+    results = {}
+
+    
+
+    # Test case 1: Default case
+
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_1'] = dx
+
+
+
+    # Test case 2: Different shape
+
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_2'] = dx
+
+
+
+    # Test case 3: Larger tensor
+
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_3'] = dx
+
+
+
+    # Test case 4: Edge case with small tensor
+
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+
+    dx = _l2_norm_bwd(x, dy)
+
+    results['test_case_4'] = dx
+
+
+
+    return results
+
+
+
+# Run the tests
+
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py.stderr b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py.stdout b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_bwd.py_gen_triton_code_972847.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py
new file mode 100644
index 0000000..8616379
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py
@@ -0,0 +1,104 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr
+):
+    pid_m = tl.program_id(0)
+    offsets_n = tl.arange(0, BLOCK_N)
+    mask = offsets_n < N
+
+    row_start = pid_m * stride_x_row
+    x_ptrs = X + row_start + offsets_n
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0)
+    rstd = rsqrt(var + eps)
+    y = x * rstd
+
+    y_ptrs = Y + row_start + offsets_n
+    tl.store(y_ptrs, y.to(Y.type.element_ty), mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    x = x.contiguous()
+    y = torch.empty_like(x)
+    M, N = x.shape
+    element_size = x.element_size()
+    BLOCK_N = triton.next_power_of_2(min(65536 // element_size, N))
+    if N > BLOCK_N:
+        raise ValueError(f"N={N} exceeds BLOCK_N={BLOCK_N}")
+    grid = (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y, x.stride(0), N, eps, BLOCK_N=BLOCK_N
+    )
+    return y.view(x.shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py.stdout
new file mode 100644
index 0000000..e76157b
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_212491.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_212491 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py
new file mode 100644
index 0000000..405dc9f
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py
@@ -0,0 +1,116 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr
+):
+    row_id = tl.program_id(0)
+    row_start = X + row_id * stride_x_row
+    row_out_start = Y + row_id * stride_x_row
+
+    col_offsets = tl.arange(0, BLOCK_N)
+    mask = col_offsets < N
+
+    acc = tl.zeros([BLOCK_N], dtype=tl.float32)
+    x_vals = tl.load(row_start + col_offsets, mask=mask, other=0.0)
+    acc = x_vals * x_vals
+    var = tl.sum(acc)
+    rstd = 1.0 / tl.sqrt(var + eps)
+
+    out_vals = x_vals * rstd
+    tl.store(row_out_start + col_offsets, out_vals, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float):
+    x = x.contiguous()
+    shape = x.shape
+    if x.ndim > 2:
+        x = x.view(-1, x.shape[-1])
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    element_size = x.element_size()
+    MAX_FUSED = 65536 // element_size
+    BLOCK_N = min(MAX_FUSED, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError
+
+    grid = lambda META: (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    return y.view(shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py.stdout
new file mode 100644
index 0000000..0a67d23
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_254823.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_254823 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py
new file mode 100644
index 0000000..542514a
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py
@@ -0,0 +1,114 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr
+):
+    row_id = tl.program_id(0)
+    row_start = X + row_id * stride_x_row
+    row_out_start = Y + row_id * stride_x_row
+
+    col_offsets = tl.arange(0, BLOCK_N)
+    mask = col_offsets < N
+
+    x_vals = tl.load(row_start + col_offsets, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x_vals * x_vals)
+    rstd = 1.0 / tl.sqrt(var + eps)
+
+    out_vals = x_vals * rstd
+    tl.store(row_out_start + col_offsets, out_vals, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-6):
+    x = x.contiguous()
+    shape = x.shape
+    if x.ndim > 2:
+        x = x.view(-1, x.shape[-1])
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    element_size = x.element_size()
+    MAX_FUSED = 65536 // element_size
+    BLOCK_N = min(MAX_FUSED, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError("N too large")
+
+    grid = lambda META: (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    return y.view(shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_318959.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py
new file mode 100644
index 0000000..8193726
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py
@@ -0,0 +1,112 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr
+):
+    row_idx = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row_idx * stride_x_row + cols
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    y = x * rstd
+
+    y_ptrs = Y + row_idx * stride_x_row + cols
+    tl.store(y_ptrs, y.to(Y.type.element_ty), mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-5) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    N = x.size(-1)
+    M = x.size(0)
+
+    element_size = x.element_size()
+    MAX_FUSED_SIZE = 65536 // element_size
+    BLOCK_N = min(MAX_FUSED_SIZE, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError("this kernel does not support N >= 64KB")
+
+    y = torch.empty_like(x)
+    grid = (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y,
+        x.stride(0), N, eps,
+        BLOCK_N
+    )
+    return y.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_336206.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py
new file mode 100644
index 0000000..7ec7cd0
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py
@@ -0,0 +1,114 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row_id = tl.program_id(0)
+    col_offsets = tl.arange(0, BLOCK_N)
+
+    row_start_ptr = X + row_id * stride_x_row
+    mask = col_offsets < N
+
+    x = tl.load(row_start_ptr + col_offsets, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x * x, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    y = x * rstd
+
+    tl.store(Y + row_id * stride_x_row + col_offsets, y, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-5) -> torch.Tensor:
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+
+    original_shape = x.shape
+    x = x.view(-1, x.shape[-1])
+    M, N = x.shape
+
+    elem_size = x.element_size()
+    BLOCK_N = min(65536 // elem_size, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError(f"N ({N}) exceeds max BLOCK_N ({BLOCK_N})")
+
+    y = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    grid = (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x,
+        y,
+        stride_x_row=x.stride(0),
+        N=N,
+        eps=eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    y = y.view(original_shape)
+    return y
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_357644.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py
new file mode 100644
index 0000000..f81044e
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py
@@ -0,0 +1,117 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X,
+    Y,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+
+    x_ptrs = X + row * stride_x_row + cols
+    mask = cols < N
+
+    x_block = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+    x2 = x_block * x_block
+    var = tl.sum(x2, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+
+    y_block = x_block * rstd
+    y_ptrs = Y + row * N + cols
+    tl.store(y_ptrs, y_block, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    assert len(x.shape) == 2, "L2 norm kernel requires 2-D input tensor"
+    if not x.is_contiguous():
+        x = x.contiguous()
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    BLOCK_N = min(65536 // x.element_size(), triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension N={N} larger than maximum allowed ({BLOCK_N})")
+
+    with torch.cuda.device(x.device):  # For ROCm we still use CUDA semantics
+        _l2_norm_fwd_1pass_kernel[(M,)](
+            x,
+            y,
+            x.stride(0),
+            N,
+            eps,
+            BLOCK_N=BLOCK_N,
+        )
+    return y
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py.stdout
new file mode 100644
index 0000000..12d83dc
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_392963.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_392963 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py
new file mode 100644
index 0000000..906dbe7
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py
@@ -0,0 +1,124 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row_id = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    # compute base pointers
+    x_ptr = X + row_id * stride_x_row
+    y_ptr = Y + row_id * stride_x_row
+
+    # load and accumulate
+    x = tl.load(x_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x * x)
+    rstd = tl.math.rsqrt(var + eps)
+
+    # normalize and store
+    y = x * rstd
+    tl.store(y_ptr + cols, y.to(Y.type.element_ty), mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float):
+    if x.dim() == 3:
+        B, M, N = x.shape
+        x_view = x.view(B * M, N)
+    elif x.dim() == 2:
+        B, M, N = 1, *x.shape
+        x_view = x
+    else:
+        raise ValueError("Unsupported input dim")
+
+    x_contig = x_view.contiguous()
+    y = torch.empty_like(x_contig)
+
+    BLOCK_N = triton.next_power_of_2(N)
+    byte_per_elem = x_contig.element_size()
+    upper = (65536 // byte_per_elem)
+    if BLOCK_N > upper:
+        BLOCK_N = (65536 // byte_per_elem)
+
+    assert N <= BLOCK_N, f"Feature dim {N} exceeds limit {BLOCK_N}"
+
+    _l2_norm_fwd_1pass_kernel[(x_contig.shape[0],)](
+        x_contig,
+        y,
+        x_contig.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    if x.dim() == 3:
+        return y.view(B, M, N)
+    return y.view(x.shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py.stdout
new file mode 100644
index 0000000..748c48c
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_403404.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_403404 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py
new file mode 100644
index 0000000..f81044e
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py
@@ -0,0 +1,117 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X,
+    Y,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+
+    x_ptrs = X + row * stride_x_row + cols
+    mask = cols < N
+
+    x_block = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+    x2 = x_block * x_block
+    var = tl.sum(x2, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+
+    y_block = x_block * rstd
+    y_ptrs = Y + row * N + cols
+    tl.store(y_ptrs, y_block, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    assert len(x.shape) == 2, "L2 norm kernel requires 2-D input tensor"
+    if not x.is_contiguous():
+        x = x.contiguous()
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    BLOCK_N = min(65536 // x.element_size(), triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension N={N} larger than maximum allowed ({BLOCK_N})")
+
+    with torch.cuda.device(x.device):  # For ROCm we still use CUDA semantics
+        _l2_norm_fwd_1pass_kernel[(M,)](
+            x,
+            y,
+            x.stride(0),
+            N,
+            eps,
+            BLOCK_N=BLOCK_N,
+        )
+    return y
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py.stdout
new file mode 100644
index 0000000..83d567e
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_466457.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_466457 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py
new file mode 100644
index 0000000..5175985
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py
@@ -0,0 +1,111 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X,
+    Y,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row_idx = tl.program_id(0)
+    row_off = row_idx * stride_x_row
+    col_idx = tl.arange(0, BLOCK_N)
+    mask = col_idx < N
+    x = tl.load(X + row_off + col_idx, mask=mask, other=0.0).to(tl.float32)
+    ssq = tl.sum(x * x)
+    rstd = tl.math.rsqrt(ssq + eps)
+    y = x * rstd
+    tl.store(Y + row_off + col_idx, y, mask=mask)
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-6) -> torch.Tensor:
+    x_shape_og = x.shape
+    x = x.view(-1, x_shape_og[-1]).contiguous()
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    MAX_FUSED = 65536 // x.element_size()
+    BLOCK_N = min(MAX_FUSED, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise NotImplementedError("N > BLOCK_N not handled in 1-pass kernel")
+
+    grid = (M,)
+    with torch.cuda.device(x.device):
+        _l2_norm_fwd_1pass_kernel[grid](
+            x,
+            y,
+            x.stride(0),
+            N,
+            eps,
+            BLOCK_N,
+        )
+    return y.view(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_598128.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py
new file mode 100644
index 0000000..10a6b6a
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py
@@ -0,0 +1,112 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr
+):
+    row_idx = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptrs = X + row_idx * stride_x_row + cols
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    y = x * rstd
+
+    y_ptrs = Y + row_idx * stride_x_row + cols
+    tl.store(y_ptrs, y.to(Y.type.element_ty), mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-5) -> torch.Tensor:
+    x = x.contiguous()
+    *shape, N = x.shape
+    x = x.view(-1, N)
+    M = x.size(0)
+
+    element_size = x.element_size()
+    max_block = (64 * 1024) // element_size
+    BLOCK_N = triton.next_power_of_2(N)
+    if BLOCK_N > max_block:
+        raise ValueError(f"N ({N}) exceeds block size limit ({max_block})")
+
+    y = torch.empty_like(x)
+
+    grid = (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y,
+        x.stride(0), N, eps,
+        BLOCK_N=BLOCK_N
+    )
+
+    return y.view(*shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py.stdout
new file mode 100644
index 0000000..8afa060
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_599125.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_599125 due to shape '[4]' is invalid for input of size 32
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py
new file mode 100644
index 0000000..bb6e661
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py
@@ -0,0 +1,104 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr
+):
+    pid_m = tl.program_id(0)
+    offsets_n = tl.arange(0, BLOCK_N)
+    mask = offsets_n < N
+
+    row_start = pid_m * stride_x_row
+    x_ptrs = X + row_start + offsets_n
+    x = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    y = x * rstd
+
+    y_ptrs = Y + row_start + offsets_n
+    tl.store(y_ptrs, y.to(Y.type.element_ty), mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-6) -> torch.Tensor:
+    x = x.contiguous()
+    y = torch.empty_like(x)
+    M, N = x.shape
+    element_size = x.element_size()
+    BLOCK_N = triton.next_power_of_2(min(65536 // element_size, N))
+    if N > BLOCK_N:
+        raise ValueError(f"N={N} exceeds BLOCK_N={BLOCK_N}")
+    grid = (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y, x.stride(0), N, eps, BLOCK_N=BLOCK_N
+    )
+    return y.view(x.shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_637798.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py
new file mode 100644
index 0000000..9559e33
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py
@@ -0,0 +1,113 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptr = X + row * stride_x_row
+    y_ptr = Y + row * stride_x_row
+
+    x = tl.load(x_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x)
+    rstd = tl.math.rsqrt(var + eps)
+
+    y = x * rstd
+    tl.store(y_ptr + cols, y.to(Y.dtype.element_ty), mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-5):
+    x_shape_og = x.shape
+    x = x.reshape(-1, x.shape[-1])
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+    M, N = x.shape
+
+    y = torch.empty_like(x)
+
+    max_fused_size = 65536 // x.element_size()
+    BLOCK_N = min(max_fused_size, triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise RuntimeError(f"This L2 norm does not support feature dim >= 64KB. Got: {N}")
+
+    _l2_norm_fwd_1pass_kernel[(M,)](
+        X=x,
+        Y=y,
+        stride_x_row=x.stride(0),
+        N=N,
+        eps=eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    return y.reshape(x_shape_og)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_650964.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py
new file mode 100644
index 0000000..851612e
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py
@@ -0,0 +1,108 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    pid = tl.program_id(0)
+    row_start = pid * stride_x_row
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x = tl.load(X + row_start + cols, mask=mask, other=0.0).to(tl.float32)
+    var = tl.sum(x * x, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    y = x * rstd
+    tl.store(Y + row_start + cols, y, mask=mask)
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    x = x.contiguous()
+    shape = x.shape
+    if x.dim() > 2:
+        x = x.view(-1, shape[-1])
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    element_size = x.element_size()
+    BLOCK_N = min(triton.next_power_of_2(N), 1024)
+    if BLOCK_N * element_size > 65536:
+        raise ValueError("BLOCK_N too large")
+    if N > BLOCK_N:
+        raise NotImplementedError("N > BLOCK_N not handled in 1-pass kernel")
+
+    grid = (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N
+    )
+
+    return y.view(shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py.stdout
new file mode 100644
index 0000000..3b6f1af
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_674736.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_674736 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py
new file mode 100644
index 0000000..f81044e
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py
@@ -0,0 +1,117 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X,
+    Y,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+
+    x_ptrs = X + row * stride_x_row + cols
+    mask = cols < N
+
+    x_block = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+    x2 = x_block * x_block
+    var = tl.sum(x2, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+
+    y_block = x_block * rstd
+    y_ptrs = Y + row * N + cols
+    tl.store(y_ptrs, y_block, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    assert len(x.shape) == 2, "L2 norm kernel requires 2-D input tensor"
+    if not x.is_contiguous():
+        x = x.contiguous()
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    BLOCK_N = min(65536 // x.element_size(), triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension N={N} larger than maximum allowed ({BLOCK_N})")
+
+    with torch.cuda.device(x.device):  # For ROCm we still use CUDA semantics
+        _l2_norm_fwd_1pass_kernel[(M,)](
+            x,
+            y,
+            x.stride(0),
+            N,
+            eps,
+            BLOCK_N=BLOCK_N,
+        )
+    return y
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py.stdout
new file mode 100644
index 0000000..c1965cf
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_786517.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_786517 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py
new file mode 100644
index 0000000..f81044e
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py
@@ -0,0 +1,117 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X,
+    Y,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+
+    x_ptrs = X + row * stride_x_row + cols
+    mask = cols < N
+
+    x_block = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+    x2 = x_block * x_block
+    var = tl.sum(x2, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+
+    y_block = x_block * rstd
+    y_ptrs = Y + row * N + cols
+    tl.store(y_ptrs, y_block, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    assert len(x.shape) == 2, "L2 norm kernel requires 2-D input tensor"
+    if not x.is_contiguous():
+        x = x.contiguous()
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    BLOCK_N = min(65536 // x.element_size(), triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension N={N} larger than maximum allowed ({BLOCK_N})")
+
+    with torch.cuda.device(x.device):  # For ROCm we still use CUDA semantics
+        _l2_norm_fwd_1pass_kernel[(M,)](
+            x,
+            y,
+            x.stride(0),
+            N,
+            eps,
+            BLOCK_N=BLOCK_N,
+        )
+    return y
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py.stdout
new file mode 100644
index 0000000..dbdea73
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_800477.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_800477 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py
new file mode 100644
index 0000000..ce86c02
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py
@@ -0,0 +1,132 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row_id = tl.program_id(0)
+    col_offsets = tl.arange(0, BLOCK_N)
+
+    # Row pointer
+    row_start_ptr = X + row_id * stride_x_row
+
+    # Initialize accumulators
+    var = tl.zeros([BLOCK_N], dtype=tl.float32)
+    mask = col_offsets < N
+
+    # Load data
+    x = tl.load(row_start_ptr + col_offsets, mask=mask, other=0.0).to(tl.float32)
+
+    # Compute variance (sum of squares)
+    var = x * x
+    var = tl.sum(var, axis=0)
+
+    # Compute rstd
+    rstd = tl.math.rsqrt(var + eps)
+
+    # Normalize and store
+    y = x * rstd
+    tl.store(Y + row_id * stride_x_row + col_offsets, y, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    # Ensure contiguous
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+
+    # Flatten to 2D (M, N)
+    original_shape = x.shape
+    x = x.view(-1, x.shape[-1])
+    M, N = x.shape
+
+    # Compute BLOCK_N
+    elem_size = x.element_size()
+    BLOCK_N = 2 ** (16 - elem_size.bit_length())  # Max 64KB / elem_size
+    BLOCK_N = min(BLOCK_N, triton.next_power_of_2(N))
+
+    if N > BLOCK_N:
+        raise ValueError(f"N ({N}) exceeds max BLOCK_N ({BLOCK_N})")
+
+    # Prepare output
+    y = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    # Launch kernel
+    grid = (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y,
+        stride_x_row=x.stride(0),
+        N=N,
+        eps=eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    # Reshape back
+    y = y.view(original_shape)
+    return y
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py.stdout
new file mode 100644
index 0000000..36e7c6e
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_839169.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_839169 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py
new file mode 100644
index 0000000..ec6caf7
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py
@@ -0,0 +1,109 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row_id = tl.program_id(0)
+    col_offsets = tl.arange(0, BLOCK_N)
+    mask = col_offsets < N
+
+    X_ptr = X + row_id * stride_x_row + col_offsets
+    x = tl.load(X_ptr, mask=mask, other=0.0)
+    sum2 = x.to(tl.float32) * x.to(tl.float32)
+    var = tl.sum(sum2, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    out = x * rstd
+    Y_ptr = Y + row_id * stride_x_row + col_offsets
+    tl.store(Y_ptr, out, mask=mask)
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-5) -> torch.Tensor:
+    if x.dim() == 3:
+        b, m, n = x.shape
+        x = x.view(-1, n)
+        orig_shape = (b, m, n)
+    else:
+        orig_shape = x.shape
+    x = x.contiguous()
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    BLOCK_N = 1024 // x.element_size()
+    if N > BLOCK_N:
+        raise RuntimeError(f"Feature dimension N={N} exceeds maximum {BLOCK_N}")
+
+    _l2_norm_fwd_1pass_kernel[(M,)](
+        x,
+        y,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N,
+    )
+    return y.view(*orig_shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_846578.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py
new file mode 100644
index 0000000..f81044e
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py
@@ -0,0 +1,117 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X,
+    Y,
+    stride_x_row,
+    N,
+    eps,
+    BLOCK_N: tl.constexpr,
+):
+    row = tl.program_id(0)
+    cols = tl.arange(0, BLOCK_N)
+
+    x_ptrs = X + row * stride_x_row + cols
+    mask = cols < N
+
+    x_block = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+    x2 = x_block * x_block
+    var = tl.sum(x2, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+
+    y_block = x_block * rstd
+    y_ptrs = Y + row * N + cols
+    tl.store(y_ptrs, y_block, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    assert len(x.shape) == 2, "L2 norm kernel requires 2-D input tensor"
+    if not x.is_contiguous():
+        x = x.contiguous()
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    BLOCK_N = min(65536 // x.element_size(), triton.next_power_of_2(N))
+    if N > BLOCK_N:
+        raise ValueError(f"Feature dimension N={N} larger than maximum allowed ({BLOCK_N})")
+
+    with torch.cuda.device(x.device):  # For ROCm we still use CUDA semantics
+        _l2_norm_fwd_1pass_kernel[(M,)](
+            x,
+            y,
+            x.stride(0),
+            N,
+            eps,
+            BLOCK_N=BLOCK_N,
+        )
+    return y
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py.stdout
new file mode 100644
index 0000000..a9f9867
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_964700.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_964700 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py
new file mode 100644
index 0000000..6fa1aee
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py
@@ -0,0 +1,113 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(
+    X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr
+):
+    pid_m = tl.program_id(0)
+    row_start = pid_m * stride_x_row
+    _sum = tl.zeros([BLOCK_N], dtype=tl.float32)
+    for off in range(0, N, BLOCK_N):
+        cols = off + tl.arange(0, BLOCK_N)
+        mask = cols < N
+        x_ptrs = X + row_start + cols
+        x_vals = tl.load(x_ptrs, mask=mask, other=0.0).to(tl.float32)
+        _sum += x_vals * x_vals
+    var = tl.sum(_sum, axis=0)
+    rstd = tl.math.rsqrt(var + eps)
+    for off in range(0, N, BLOCK_N):
+        cols = off + tl.arange(0, BLOCK_N)
+        mask = cols < N
+        x_ptrs = X + row_start + cols
+        y_ptrs = Y + row_start + cols
+        x_vals = tl.load(x_ptrs, mask=mask, other=0.0)
+        y_vals = x_vals * rstd
+        tl.store(y_ptrs, y_vals, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-6):
+    x = x.contiguous()
+    shape = x.shape
+    x = x.view(-1, shape[-1])
+    M, N = x.shape
+    y = torch.empty_like(x)
+
+    BLOCK_N = min(triton.next_power_of_2(N), 1 << 16)
+    assert N <= BLOCK_N, "Feature dimension N must not exceed BLOCK_N (64KB limit)"
+    _l2_norm_fwd_1pass_kernel[(M,)](
+        x, y,
+        stride_x_row=x.stride(0),
+        N=N,
+        eps=eps,
+        BLOCK_N=BLOCK_N
+    )
+    return y.view(*shape)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_965300.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py
new file mode 100644
index 0000000..ce86c02
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py
@@ -0,0 +1,132 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    row_id = tl.program_id(0)
+    col_offsets = tl.arange(0, BLOCK_N)
+
+    # Row pointer
+    row_start_ptr = X + row_id * stride_x_row
+
+    # Initialize accumulators
+    var = tl.zeros([BLOCK_N], dtype=tl.float32)
+    mask = col_offsets < N
+
+    # Load data
+    x = tl.load(row_start_ptr + col_offsets, mask=mask, other=0.0).to(tl.float32)
+
+    # Compute variance (sum of squares)
+    var = x * x
+    var = tl.sum(var, axis=0)
+
+    # Compute rstd
+    rstd = tl.math.rsqrt(var + eps)
+
+    # Normalize and store
+    y = x * rstd
+    tl.store(Y + row_id * stride_x_row + col_offsets, y, mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float) -> torch.Tensor:
+    # Ensure contiguous
+    if x.stride(-1) != 1:
+        x = x.contiguous()
+
+    # Flatten to 2D (M, N)
+    original_shape = x.shape
+    x = x.view(-1, x.shape[-1])
+    M, N = x.shape
+
+    # Compute BLOCK_N
+    elem_size = x.element_size()
+    BLOCK_N = 2 ** (16 - elem_size.bit_length())  # Max 64KB / elem_size
+    BLOCK_N = min(BLOCK_N, triton.next_power_of_2(N))
+
+    if N > BLOCK_N:
+        raise ValueError(f"N ({N}) exceeds max BLOCK_N ({BLOCK_N})")
+
+    # Prepare output
+    y = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    # Launch kernel
+    grid = (M,)
+    _l2_norm_fwd_1pass_kernel[grid](
+        x, y,
+        stride_x_row=x.stride(0),
+        N=N,
+        eps=eps,
+        BLOCK_N=BLOCK_N,
+    )
+
+    # Reshape back
+    y = y.view(original_shape)
+    return y
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test the forward L2 normalization
+
+def test_l2_norm_fwd():
+
+    results = {}
+
+    
+
+    # Test case 1
+
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+
+    y1 = _l2_norm_fwd(x1)
+
+    results['test_case_1'] = y1
+
+
+
+    # Test case 2: Different batch size
+
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+
+    y2 = _l2_norm_fwd(x2)
+
+    results['test_case_2'] = y2
+
+
+
+    # Test case 3: Different feature size
+
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+
+    y3 = _l2_norm_fwd(x3)
+
+    results['test_case_3'] = y3
+
+
+
+    # Test case 4: Larger tensor
+
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+
+    y4 = _l2_norm_fwd(x4)
+
+    results['test_case_4'] = y4
+
+
+
+    return results
+
+
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py.stderr b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py.stdout b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py.stdout
new file mode 100644
index 0000000..3871e8d
--- /dev/null
+++ b/src/temp/gen/l2_norm_triton1.py_gen_triton_code_973282.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module l2_norm_triton1.py_gen_triton_code_973282 due to _l2_norm_fwd() missing 1 required positional argument: 'eps'
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py
new file mode 100644
index 0000000..1875402
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py
@@ -0,0 +1,124 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    n_rows = SIZE_M
+    n_cols = D_HEAD
+
+    num_tasks = n_rows * n_cols
+    for i in range(pid, num_tasks, BLOCK_SIZE):
+        if i < num_tasks:
+            row = i // n_cols
+            col = i % n_cols
+
+            in_ptr  = M  + tl.make_block_ptr(
+                base=M,
+                shape=(n_rows, n_cols),
+                strides=(matrix_stridex, matrix_stridey),
+                offsets=(row, col),
+                block_shape=(1, 1),
+                order=(0, 1)
+            )
+            val = tl.load(in_ptr)
+
+            out_ptr = Out + tl.make_block_ptr(
+                base=Out,
+                shape=(n_cols, n_rows),
+                strides=(out_stridex, out_stridey),
+                offsets=(col, row),
+                block_shape=(1, 1),
+                order=(0, 1)
+            )
+            tl.store(out_ptr, val)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    BLOCK_SIZE = 256
+    grid = lambda meta: (triton.cdiv(SIZE_M * D_HEAD, BLOCK_SIZE),)
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_SIZE,
+    )
+    return out
+
+
+if __name__ == "__main__":
+    SIZE_M = 64
+    D_HEAD = 128
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = wrapper(SIZE_M, D_HEAD)
+    ref = matrix.t()
+    assert torch.allclose(ref, out, atol=1e-3), abs(ref - out).max()
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py.stdout
new file mode 100644
index 0000000..5d0959d
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_114093.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_114093 due to at 22:22:
+):
+    pid = tl.program_id(0)
+    n_rows = SIZE_M
+    n_cols = D_HEAD
+
+    num_tasks = n_rows * n_cols
+    for i in range(pid, num_tasks, BLOCK_SIZE):
+        if i < num_tasks:
+            row = i // n_cols
+            col = i % n_cols
+
+            in_ptr  = M  + tl.make_block_ptr(
+                      ^
+IncompatibleTypeErrorImpl('invalid operands of type pointer<fp16> and pointer<<[1, 1], fp16>>')
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py
new file mode 100644
index 0000000..4ef316d
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py
@@ -0,0 +1,96 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = tl.arange(0, SIZE_M)
+    offs_n = tl.arange(0, D_HEAD)
+
+    matrix_ptr = M + offs_n[None, :] * matrix_stridex + offs_m[:, None] * matrix_stridey
+    out_ptr    = Out + offs_n[None, :] * out_stridey + offs_m[:, None] * out_stridex
+
+    x = tl.load(matrix_ptr)
+    tl.store(out_ptr, x)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device=device)
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device=device)
+
+    grid = (D_HEAD, SIZE_M)
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(1),
+        matrix.stride(0),
+        out.stride(1),
+        out.stride(0),
+        SIZE_M=SIZE_M,
+        D_HEAD=D_HEAD,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_11496.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py
new file mode 100644
index 0000000..96ed226
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py
@@ -0,0 +1,115 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+
+    idxs_m = tl.max_contiguous(tl.multiple_of(offs_m, BLOCK_M), BLOCK_M)
+    idxs_n = tl.max_contiguous(tl.multiple_of(offs_n, BLOCK_N), BLOCK_N)
+
+    matrix_ptrs = M + (idxs_m[:, None] * matrix_stridex + idxs_n[None, :] * matrix_stridey)
+    out_ptrs = Out + (idxs_n[:, None] * out_stridex + idxs_m[None, :] * out_stridey)
+
+    mask = mask_m[:, None] & mask_n[None, :]
+    a = tl.load(matrix_ptrs, mask=mask)
+    tl.store(out_ptrs, a, mask=mask)
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    BLOCK_M = 32
+    BLOCK_N = 32
+    grid = lambda meta: (triton.cdiv(SIZE_M, meta['BLOCK_M']),
+                         triton.cdiv(D_HEAD, meta['BLOCK_N']))
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M=BLOCK_M,
+        BLOCK_N=BLOCK_N,
+    )
+    return out
+
+if __name__ == "__main__":
+    SIZE_M = 64
+    D_HEAD = 128
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = wrapper(SIZE_M, D_HEAD)
+    ref = matrix.t()
+    assert torch.allclose(ref, out, atol=1e-3), abs(ref - out).max()
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py.stdout
new file mode 100644
index 0000000..a6e237c
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_14792.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_14792.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py
new file mode 100644
index 0000000..10638c5
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py
@@ -0,0 +1,105 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+
+    ptrs_m = M + offs_m[:, None] * matrix_stridex + offs_n[None, :] * matrix_stridey
+    ptrs_out = Out + offs_n[:, None] * out_stridex + offs_m[None, :] * out_stridey
+
+    x = tl.load(ptrs_m, mask=mask_m[:, None] & mask_n[None, :])
+    tl.store(ptrs_out, x, mask=mask_n[:, None] & mask_m[None, :])
+
+def wrapper():
+    SIZE_M = 128
+    D_HEAD = 64
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    BLOCK_SIZE_M = 32
+    BLOCK_SIZE_N = 32
+    grid = lambda META: (
+        triton.cdiv(SIZE_M, BLOCK_SIZE_M),
+        triton.cdiv(D_HEAD, BLOCK_SIZE_N)
+    )
+
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD,
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py.stdout
new file mode 100644
index 0000000..fe987ae
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_160821.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_160821 due to wrapper() takes 0 positional arguments but 2 were given
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py
new file mode 100644
index 0000000..d26212d
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py
@@ -0,0 +1,89 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    BLOCK_SIZE = 32
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    rm = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
+    rn = pid_n * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[None, :]
+
+    mask = (rm < SIZE_M) & (rn < D_HEAD)
+    in_idx = rm * matrix_stridex + rn * matrix_stridey
+    out_idx = rn * out_stridex + rm * out_stridey
+
+    val = tl.load(M + in_idx, mask=mask)
+    tl.store(Out + out_idx, val, mask=mask)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int) -> torch.Tensor:
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    grid = lambda META: (triton.cdiv(SIZE_M, 32), triton.cdiv(D_HEAD, 32))
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py.stdout
new file mode 100644
index 0000000..d0ea652
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_205496.py.stdout
@@ -0,0 +1,8 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_205496 due to at 6:30:
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    BLOCK_SIZE = 32
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    rm = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
+                              ^
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py
new file mode 100644
index 0000000..f794b81
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py
@@ -0,0 +1,90 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD
+):
+    pid_x = tl.program_id(0)
+    pid_y = tl.program_id(1)
+    
+    m_ptrs = M + pid_x * matrix_stridey + pid_y * matrix_stridex
+    o_ptrs = Out + pid_y * out_stridey + pid_x * out_stridex
+    
+    val = tl.load(m_ptrs)
+    tl.store(o_ptrs, val)
+
+def wrapper():
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+    
+    grid = lambda meta: (SIZE_M, D_HEAD)
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD
+    )
+    return out
+
+SIZE_M = 64
+D_HEAD = 128
+result = wrapper()
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py.stdout
new file mode 100644
index 0000000..ee57fb4
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_216901.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_216901 due to wrapper() takes 0 positional arguments but 2 were given
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py
new file mode 100644
index 0000000..f6cf2d3
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py
@@ -0,0 +1,102 @@
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_n = pid_n * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+
+    idx = (offs_m[:, None] * matrix_stridey + offs_n[None, :] * matrix_stridex)
+    matrix_data = tl.load(M + idx, mask=mask_m[:, None] & mask_n[None, :])
+
+    idx_out = (offs_n[:, None] * out_stridey + offs_m[None, :] * out_stridex)
+    tl.store(Out + idx_out, matrix_data, mask=mask_n[:, None] & mask_m[None, :])
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn(SIZE_M, D_HEAD, dtype=torch.float16, device='cuda')
+    out = torch.zeros(D_HEAD, SIZE_M, dtype=torch.float16, device='cuda')
+
+    BLOCK_M = 128
+    BLOCK_D = 128
+
+    grid = (triton.cdiv(SIZE_M, BLOCK_M), triton.cdiv(D_HEAD, BLOCK_D))
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M=BLOCK_M,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py.stdout
new file mode 100644
index 0000000..eb9a2c1
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_274099.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_274099.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py
new file mode 100644
index 0000000..f5c5934
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py
@@ -0,0 +1,105 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+    BLOCK_M: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    m_offs = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    d_offs = pid_d * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_m = m_offs < SIZE_M
+    mask_d = d_offs < D_HEAD
+
+    src_ptrs = M + d_offs[None, :] * matrix_stridey + m_offs[:, None] * matrix_stridex
+    mask = mask_m[:, None] & mask_d[None, :]
+    src = tl.load(src_ptrs, mask=mask)
+    src_T = tl.trans(src)
+
+    dst_ptrs = Out + m_offs[None, :] * d_offs[:, None] * 0 + m_offs[None, :] * out_stridex + d_offs[:, None] * out_stridey
+    tl.store(dst_ptrs, src_T, mask=mask.T)
+
+@torch.no_grad()
+def wrapper(SIZE_M: int, D_HEAD: int):
+    BLOCK_M = 32
+    BLOCK_D = 32
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+    grid = lambda META: (triton.cdiv(SIZE_M, META['BLOCK_M']),
+                         triton.cdiv(D_HEAD, META['BLOCK_D']))
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M=BLOCK_M,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py.stdout
new file mode 100644
index 0000000..cbacf29
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_369711.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_369711.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py
new file mode 100644
index 0000000..e52c3d1
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py
@@ -0,0 +1,85 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M: tl.constexpr, D_HEAD: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * D_HEAD + tl.arange(0, D_HEAD)
+    offs_n = pid_n
+
+    m_ptrs = M + offs_m * matrix_stridex + offs_n * matrix_stridey
+    mask = offs_m < SIZE_M * D_HEAD
+    A = tl.load(m_ptrs, mask=mask)
+
+    out_ptrs = Out + offs_n * out_stridex + offs_m * out_stridey
+    tl.store(out_ptrs, A, mask=mask)
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    grid = lambda META: (SIZE_M,)
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M=SIZE_M,
+        D_HEAD=D_HEAD
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py.stdout
new file mode 100644
index 0000000..fddd219
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_412290.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_412290.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py
new file mode 100644
index 0000000..c6b4ddc
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey,
+    SIZE_M, D_HEAD,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    x_idx = offs_m[:, None] * D_HEAD + offs_n[None, :]
+    y_idx = offs_n[:, None] * SIZE_M + offs_m[None, :]
+
+    mask_i = (offs_m[:, None] < SIZE_M) & (offs_n[None, :] < D_HEAD)
+    mask_o = (offs_n[:, None] < D_HEAD) & (offs_m[None, :] < SIZE_M)
+
+    val = tl.load(M + x_idx, mask=mask_i, other=0.0)
+    tl.store(Out + y_idx, val.trans(), mask=mask_o)
+
+def wrapper(
+    SIZE_M: int, D_HEAD: int
+) -> torch.Tensor:
+    device = torch.device("cuda")
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device=device)
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device=device)
+
+    BLOCK_SIZE_M = 32
+    BLOCK_SIZE_N = 32
+    grid = (
+        triton.cdiv(SIZE_M, BLOCK_SIZE_M),
+        triton.cdiv(D_HEAD, BLOCK_SIZE_N),
+    )
+
+    # For row-major, matrix.stride(1) = D_HEAD, matrix.stride(0) = 1  => stride_x = D_HEAD, stride_y = 1
+    #            out.stride(1) = SIZE_M,  out.stride(0) = 1      => stride_x_out = SIZE_M, stride_y_out = 1
+    # tl.arange * stride simplifies when stride==1 and we use element offsets; so we pass stride=1.
+    kernel[grid](
+        matrix, out,
+        1, 1,
+        1, 1,
+        SIZE_M, D_HEAD,
+        BLOCK_SIZE_M=BLOCK_SIZE_M, BLOCK_SIZE_N=BLOCK_SIZE_N
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_429164.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py
new file mode 100644
index 0000000..87fea90
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py
@@ -0,0 +1,105 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+    BLOCK_M: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    m_offs = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    d_offs = pid_d * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_m = m_offs < SIZE_M
+    mask_d = d_offs < D_HEAD
+
+    src_ptrs = M + d_offs[None, :] * matrix_stridey + m_offs[:, None] * matrix_stridex
+    mask = mask_m[:, None] & mask_d[None, :]
+    src = tl.load(src_ptrs, mask=mask)
+    src_T = tl.trans(src)
+
+    dst_ptrs = Out + d_offs[:, None] * out_stridex + m_offs[None, :] * out_stridey
+    tl.store(dst_ptrs, src_T, mask=mask.T)
+
+@torch.no_grad()
+def wrapper(SIZE_M: int, D_HEAD: int):
+    BLOCK_M = 32
+    BLOCK_D = 32
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+    grid = lambda META: (triton.cdiv(SIZE_M, META['BLOCK_M']),
+                         triton.cdiv(D_HEAD, META['BLOCK_D']))
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M=BLOCK_M,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_469771.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py
new file mode 100644
index 0000000..725c086
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py
@@ -0,0 +1,84 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    
+    if (pid_m < SIZE_M) and (pid_n < D_HEAD):
+        in_idx = pid_m * matrix_stridex + pid_n * matrix_stridey
+        out_idx = pid_n * out_stridex + pid_m * out_stridey
+        
+        val = tl.load(M + in_idx)
+        tl.store(Out + out_idx, val)
+
+def wrapper(SIZE_M: int, D_HEAD: int) -> torch.Tensor:
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+    
+    grid = lambda META: (triton.cdiv(SIZE_M, 32), triton.cdiv(D_HEAD, 32))
+    
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD
+    )
+    
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py.stdout
new file mode 100644
index 0000000..43ce7e9
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_493615.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_493615.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py
new file mode 100644
index 0000000..e20c50f
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py
@@ -0,0 +1,87 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+):
+    size_m_arange = tl.arange(0, SIZE_M)
+    d_head_arange = tl.arange(0, D_HEAD)
+    matrix_ptr = M + d_head_arange[None, :] * matrix_stridex + size_m_arange[:, None] * matrix_stridey
+    out_ptr = Out + size_m_arange[None, :] * out_stridex + d_head_arange[:, None] * out_stridey
+    matrix = tl.load(matrix_ptr)
+    tl.store(out_ptr, matrix)
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+    grid = (1,)
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(1),
+        matrix.stride(0),
+        out.stride(1),
+        out.stride(0),
+        SIZE_M,
+        D_HEAD,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py.stdout
new file mode 100644
index 0000000..801f724
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_529486.py.stdout
@@ -0,0 +1,14 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_529486 due to at 16:4:
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+):
+    size_m_arange = tl.arange(0, SIZE_M)
+    d_head_arange = tl.arange(0, D_HEAD)
+    matrix_ptr = M + d_head_arange[None, :] * matrix_stridex + size_m_arange[:, None] * matrix_stridey
+    out_ptr = Out + size_m_arange[None, :] * out_stridex + d_head_arange[:, None] * out_stridey
+    matrix = tl.load(matrix_ptr)
+    tl.store(out_ptr, matrix)
+    ^
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py
new file mode 100644
index 0000000..f194cf6
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py
@@ -0,0 +1,97 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+):
+    row = tl.arange(0, SIZE_M)[:, None]
+    col = tl.arange(0, D_HEAD)[None, :]
+    in_ptrs = M + row * matrix_stridex + col * matrix_stridey
+    out_ptrs = Out + col * out_stridex + row * out_stridey
+    vals = tl.load(in_ptrs)
+    tl.store(out_ptrs, vals)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+    grid = lambda meta: (1,)
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+    )
+    return out
+
+
+if __name__ == "__main__":
+    SIZE_M = 64
+    D_HEAD = 128
+    out = wrapper(SIZE_M, D_HEAD)
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    assert torch.allclose(matrix.t(), out)
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_571713.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py
new file mode 100644
index 0000000..910500d
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey,
+    SIZE_M, D_HEAD,
+    BLOCK_SIZE_M: tl.constexpr = 32, BLOCK_SIZE_N: tl.constexpr = 32
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+
+    in_ptrs = M + offs_m[:, None] * matrix_stridex + offs_n[None, :] * matrix_stridey
+    out_ptrs = Out + offs_n[:, None] * out_stridex + offs_m[None, :] * out_stridey
+
+    load_mask = mask_m[:, None] & mask_n[None, :]
+    load_data = tl.load(in_ptrs, mask=load_mask, other=0.0)
+
+    store_mask = mask_n[:, None] & mask_m[None, :]
+    tl.store(out_ptrs, tl.trans(load_data.to(tl.float16)), mask=store_mask)
+
+def wrapper(
+    matrix: torch.Tensor, out: torch.Tensor,
+    matrix_stridex: int, matrix_stridey: int,
+    out_stridex: int, out_stridey: int,
+    SIZE_M: int, D_HEAD: int
+):
+    BLOCK_SIZE_M = 32
+    BLOCK_SIZE_N = 32
+
+    grid = lambda META: (
+        triton.cdiv(SIZE_M, META["BLOCK_SIZE_M"]),
+        triton.cdiv(D_HEAD, META["BLOCK_SIZE_N"]),
+    )
+
+    kernel[grid](
+        matrix, out,
+        matrix_stridex, matrix_stridey,
+        out_stridex, out_stridey,
+        SIZE_M, D_HEAD,
+        BLOCK_SIZE_M=BLOCK_SIZE_M, BLOCK_SIZE_N=BLOCK_SIZE_N
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py.stdout
new file mode 100644
index 0000000..ed9f109
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_580037.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_580037 due to wrapper() missing 6 required positional arguments: 'matrix_stridex', 'matrix_stridey', 'out_stridex', 'out_stridey', 'SIZE_M', and 'D_HEAD'
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py
new file mode 100644
index 0000000..d26212d
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py
@@ -0,0 +1,89 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    BLOCK_SIZE = 32
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    rm = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
+    rn = pid_n * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[None, :]
+
+    mask = (rm < SIZE_M) & (rn < D_HEAD)
+    in_idx = rm * matrix_stridex + rn * matrix_stridey
+    out_idx = rn * out_stridex + rm * out_stridey
+
+    val = tl.load(M + in_idx, mask=mask)
+    tl.store(Out + out_idx, val, mask=mask)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int) -> torch.Tensor:
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    grid = lambda META: (triton.cdiv(SIZE_M, 32), triton.cdiv(D_HEAD, 32))
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py.stdout
new file mode 100644
index 0000000..911f936
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_608628.py.stdout
@@ -0,0 +1,8 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_608628 due to at 6:30:
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    BLOCK_SIZE = 32
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    rm = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
+                              ^
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py
new file mode 100644
index 0000000..ee0e5ae
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    
+    offs_m = pid_m * 128 + tl.arange(0, 128)
+    offs_n = pid_n * 128 + tl.arange(0, 128)
+    
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+    
+    # Load data
+    idx = offs_m[:, None] * matrix_stridey + offs_n[None, :] * matrix_stridex
+    data = tl.load(M + idx, mask=mask_m[:, None] & mask_n[None, :])
+    
+    # Store transposed
+    idx_out = offs_n[:, None] * out_stridey + offs_m[None, :] * out_stridex
+    tl.store(Out + idx_out, data, mask=mask_n[:, None] & mask_m[None, :])
+
+def wrapper():
+    SIZE_M = 1024
+    D_HEAD = 512
+    
+    # ROCm uses "cuda" device name
+    matrix = torch.randn(SIZE_M, D_HEAD, dtype=torch.float16, device='cuda')
+    out = torch.zeros(D_HEAD, SIZE_M, dtype=torch.float16, device='cuda')
+    
+    grid = (triton.cdiv(SIZE_M, 128), triton.cdiv(D_HEAD, 128))
+    
+    kernel[grid](
+        matrix, out,
+        matrix.stride(1), matrix.stride(0),
+        out.stride(1), out.stride(0),
+        SIZE_M, D_HEAD
+    )
+    
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py.stdout
new file mode 100644
index 0000000..cc28e1b
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_619005.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_619005 due to wrapper() takes 0 positional arguments but 2 were given
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py
new file mode 100644
index 0000000..77d9ea3
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py
@@ -0,0 +1,102 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    BLOCK_SIZE_M = tl.program_id(2) if hasattr(tl.program_id, '__call__') else 32
+    BLOCK_SIZE_N = tl.program_id(3) if hasattr(tl.program_id, '__call__') else 32
+
+    offs_m = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_n = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+
+    mask_m = offs_m < D_HEAD
+    mask_n = offs_n < SIZE_M
+
+    ptrs_m = M + offs_n[:, None] * matrix_stridex + offs_m[None, :] * matrix_stridey
+    ptrs_out = Out + offs_m[:, None] * out_stridex + offs_n[None, :] * out_stridey
+
+    x = tl.load(ptrs_m, mask=mask_n[:, None] & mask_m[None, :])
+    tl.store(ptrs_out, x, mask=mask_m[:, None] & mask_n[None, :])
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    BLOCK_SIZE_M = 32
+    BLOCK_SIZE_N = 32
+    grid = lambda META: (
+        triton.cdiv(D_HEAD, BLOCK_SIZE_N),
+        triton.cdiv(SIZE_M, BLOCK_SIZE_M)
+    )
+
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py.stdout
new file mode 100644
index 0000000..c7b4396
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_620806.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_620806 due to at 14:39:
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    BLOCK_SIZE_M = tl.program_id(2) if hasattr(tl.program_id, '__call__') else 32
+                                       ^
+NameError('hasattr is not defined')
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py
new file mode 100644
index 0000000..3722550
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py
@@ -0,0 +1,103 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+
+    ptrs_m = M + offs_m[:, None] * matrix_stridex + offs_n[None, :] * matrix_stridey
+    ptrs_out = Out + offs_n[:, None] * out_stridex + offs_m[None, :] * out_stridey
+
+    x = tl.load(ptrs_m, mask=mask_m[:, None] & mask_n[None, :])
+    tl.store(ptrs_out, x, mask=mask_n[:, None] & mask_m[None, :])
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    BLOCK_SIZE_M = 32
+    BLOCK_SIZE_N = 32
+    grid = lambda META: (
+        triton.cdiv(SIZE_M, BLOCK_SIZE_M),
+        triton.cdiv(D_HEAD, BLOCK_SIZE_N)
+    )
+
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD,
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py.stdout
new file mode 100644
index 0000000..0656835
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_671609.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_671609.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py
new file mode 100644
index 0000000..bded7c9
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey,
+    SIZE_M, D_HEAD,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+
+    in_ptrs = M + offs_m[:, None] * matrix_stridex + offs_n[None, :] * matrix_stridey
+    out_ptrs = Out + offs_n[:, None] * out_stridex + offs_m[None, :] * out_stridey
+
+    load_mask = mask_m[:, None] & mask_n[None, :]
+    load_data = tl.load(in_ptrs, mask=load_mask, other=0.0)
+
+    store_mask = mask_n[:, None] & mask_m[None, :]
+    tl.store(out_ptrs, load_data.trans(), mask=store_mask)
+
+def wrapper(
+    matrix: torch.Tensor, out: torch.Tensor,
+    matrix_stridex: int, matrix_stridey: int,
+    out_stridex: int, out_stridey: int,
+    SIZE_M: int, D_HEAD: int
+):
+    BLOCK_SIZE_M = 32
+    BLOCK_SIZE_N = 32
+
+    grid = lambda META: (
+        triton.cdiv(SIZE_M, META["BLOCK_SIZE_M"]),
+        triton.cdiv(D_HEAD, META["BLOCK_SIZE_N"]),
+    )
+
+    kernel[grid](
+        matrix, out,
+        matrix_stridex, matrix_stridey,
+        out_stridex, out_stridey,
+        SIZE_M, D_HEAD,
+        BLOCK_SIZE_M=BLOCK_SIZE_M, BLOCK_SIZE_N=BLOCK_SIZE_N
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py.stdout
new file mode 100644
index 0000000..09e6d01
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_724790.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_724790 due to wrapper() missing 6 required positional arguments: 'matrix_stridex', 'matrix_stridey', 'out_stridex', 'out_stridey', 'SIZE_M', and 'D_HEAD'
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py
new file mode 100644
index 0000000..d26212d
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py
@@ -0,0 +1,89 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    BLOCK_SIZE = 32
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    rm = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
+    rn = pid_n * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[None, :]
+
+    mask = (rm < SIZE_M) & (rn < D_HEAD)
+    in_idx = rm * matrix_stridex + rn * matrix_stridey
+    out_idx = rn * out_stridex + rm * out_stridey
+
+    val = tl.load(M + in_idx, mask=mask)
+    tl.store(Out + out_idx, val, mask=mask)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int) -> torch.Tensor:
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    grid = lambda META: (triton.cdiv(SIZE_M, 32), triton.cdiv(D_HEAD, 32))
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py.stdout
new file mode 100644
index 0000000..cdb1c01
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_738982.py.stdout
@@ -0,0 +1,8 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_738982 due to at 6:30:
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    BLOCK_SIZE = 32
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    rm = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
+                              ^
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py
new file mode 100644
index 0000000..d26212d
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py
@@ -0,0 +1,89 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    BLOCK_SIZE = 32
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    rm = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
+    rn = pid_n * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[None, :]
+
+    mask = (rm < SIZE_M) & (rn < D_HEAD)
+    in_idx = rm * matrix_stridex + rn * matrix_stridey
+    out_idx = rn * out_stridex + rm * out_stridey
+
+    val = tl.load(M + in_idx, mask=mask)
+    tl.store(Out + out_idx, val, mask=mask)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int) -> torch.Tensor:
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    grid = lambda META: (triton.cdiv(SIZE_M, 32), triton.cdiv(D_HEAD, 32))
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py.stdout
new file mode 100644
index 0000000..26e7c69
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_74175.py.stdout
@@ -0,0 +1,8 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_74175 due to at 6:30:
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    BLOCK_SIZE = 32
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    rm = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)[:, None]
+                              ^
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py
new file mode 100644
index 0000000..c60dda3
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py
@@ -0,0 +1,108 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+
+    ptrs_m = M + offs_m[:, None] * matrix_stridex + offs_n[None, :] * matrix_stridey
+    ptrs_out = Out + offs_n[:, None] * out_stridex + offs_m[None, :] * out_stridey
+
+    x = tl.load(ptrs_m, mask=mask_m[:, None] & mask_n[None, :])
+    tl.store(ptrs_out, x, mask=mask_n[:, None] & mask_m[None, :])
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device=device)
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device=device)
+
+    BLOCK_SIZE_M = 32
+    BLOCK_SIZE_N = 32
+    grid = (
+        triton.cdiv(SIZE_M, BLOCK_SIZE_M),
+        triton.cdiv(D_HEAD, BLOCK_SIZE_N),
+    )
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py.stdout
new file mode 100644
index 0000000..d43acc3
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_757083.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_757083.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py
new file mode 100644
index 0000000..b49b641
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py
@@ -0,0 +1,104 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+    BLOCK_M: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_n = pid_n * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+
+    idx = (offs_m[:, None] * matrix_stridey + offs_n[None, :] * matrix_stridex)
+    matrix_data = tl.load(M + idx, mask=mask_m[:, None] & mask_n[None, :])
+
+    idx_out = (offs_n[:, None] * out_stridey + offs_m[None, :] * out_stridex)
+    tl.store(Out + idx_out, matrix_data, mask=mask_n[:, None] & mask_m[None, :])
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn(SIZE_M, D_HEAD, dtype=torch.float16, device='cuda')
+    out = torch.zeros(D_HEAD, SIZE_M, dtype=torch.float16, device='cuda')
+
+    BLOCK_M = 128
+    BLOCK_D = 128
+
+    grid = (triton.cdiv(SIZE_M, BLOCK_M), triton.cdiv(D_HEAD, BLOCK_D))
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(1),
+        matrix.stride(0),
+        out.stride(1),
+        out.stride(0),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M=BLOCK_M,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py.stdout
new file mode 100644
index 0000000..c573083
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_759138.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_759138.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py
new file mode 100644
index 0000000..5f068d6
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py
@@ -0,0 +1,105 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_d = pid_d * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_m = offs_m < SIZE_M
+    mask_d = offs_d < D_HEAD
+
+    mask_orig = mask_m[:, None] & mask_d[None, :]
+
+    matrix_ptrs = M + offs_m[:, None] * matrix_stridey + offs_d[None, :] * matrix_stridex
+    out_ptrs = Out + offs_d[:, None] * out_stridey + offs_m[None, :] * out_stridex
+
+    data = tl.load(matrix_ptrs, mask=mask_orig)
+    tl.store(out_ptrs, data, mask=mask_orig.T)
+
+def wrapper(SIZE_M: int, D_HEAD: int) -> torch.Tensor:
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    BLOCK_M = 32
+    BLOCK_D = 32
+
+    grid = (triton.cdiv(SIZE_M, BLOCK_M), triton.cdiv(D_HEAD, BLOCK_D))
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(1),
+        matrix.stride(0),
+        out.stride(1),
+        out.stride(0),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M=BLOCK_M,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py.stdout
new file mode 100644
index 0000000..3cb8118
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_780911.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_780911.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py
new file mode 100644
index 0000000..d084549
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py
@@ -0,0 +1,107 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_d = pid_d * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_m = offs_m < SIZE_M
+    mask_d = offs_d < D_HEAD
+    mask = mask_m[:, None] & mask_d[None, :]
+
+    m_ptrs = M + offs_m[:, None] * matrix_stridey + offs_d[None, :] * matrix_stridex
+    o_ptrs = Out + offs_d[:, None] * out_stridex + offs_m[None, :] * out_stridey
+
+    vals = tl.load(m_ptrs, mask=mask)
+    tl.store(o_ptrs, vals.T, mask=mask.T)
+
+def wrapper(SIZE_M, D_HEAD):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    BLOCK_M = 32
+    BLOCK_D = 32
+    grid = (
+        triton.cdiv(SIZE_M, BLOCK_M),
+        triton.cdiv(D_HEAD, BLOCK_D),
+    )
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(1),
+        matrix.stride(0),
+        out.stride(1),
+        out.stride(0),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M,
+        BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py.stdout
new file mode 100644
index 0000000..28c54eb
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_783719.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_783719.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py
new file mode 100644
index 0000000..db8aeac
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py
@@ -0,0 +1,111 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    ROW_TILE: tl.constexpr,
+    COL_TILE: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * ROW_TILE + tl.arange(0, ROW_TILE)
+    offs_n = pid_n * COL_TILE + tl.arange(0, COL_TILE)
+
+    mask_m = offs_m < SIZE_M
+    mask_n = offs_n < D_HEAD
+    mask = mask_m[:, None] & mask_n[None, :]
+
+    rows = offs_m[:, None]
+    cols = offs_n[None, :]
+
+    m_addrs = M + rows * matrix_stridex + cols * matrix_stridey
+    x = tl.load(m_addrs, mask=mask)
+
+    out_addrs = Out + cols * out_stridex + rows * out_stridey
+    tl.store(out_addrs, x, mask=mask.T)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    ROW_TILE = 16
+    COL_TILE = 16
+    grid = lambda META: (
+        triton.cdiv(SIZE_M, META['ROW_TILE']),
+        triton.cdiv(D_HEAD, META['COL_TILE']),
+    )
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M=SIZE_M,
+        D_HEAD=D_HEAD,
+        ROW_TILE=ROW_TILE,
+        COL_TILE=COL_TILE,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_81159.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py
new file mode 100644
index 0000000..877ab6e
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py
@@ -0,0 +1,89 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    grid_m = tl.cdiv(SIZE_M, 16)
+    grid_n = tl.cdiv(D_HEAD, 16)
+
+    for i in range(0, grid_m):
+        for j in range(0, grid_n):
+            offs_m = i * 16 + tl.arange(0, 16)[:, None]
+            offs_n = j * 16 + tl.arange(0, 16)[None, :]
+
+            mask = (offs_m < SIZE_M) & (offs_n < D_HEAD)
+
+            m_ptrs = M + pid_m * matrix_stridex + pid_n * matrix_stridey + offs_m * matrix_stridex + offs_n * matrix_stridey
+            out_ptrs = Out + pid_m * out_stridex + pid_n * out_stridey + offs_n * out_stridex + offs_m * out_stridey
+
+            m_val = tl.load(m_ptrs, mask=mask, other=0.0)
+            tl.store(out_ptrs, m_val, mask=mask)
+
+def wrapper():
+    SIZE_M = 64
+    D_HEAD = 128
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    grid = (1,)
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py.stdout
new file mode 100644
index 0000000..db68c61
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_853096.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_853096 due to wrapper() takes 0 positional arguments but 2 were given
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py
new file mode 100644
index 0000000..3c01166
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py
@@ -0,0 +1,111 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    n_rows = SIZE_M
+    n_cols = D_HEAD
+
+    num_tasks = n_rows * n_cols
+    for i in range(pid, num_tasks, BLOCK_SIZE):
+        if i < num_tasks:
+            row = i // n_cols
+            col = i % n_cols
+
+            in_ptr = M + row * matrix_stridex + col * matrix_stridey
+            out_ptr = Out + col * out_stridex + row * out_stridey
+
+            val = tl.load(in_ptr)
+            tl.store(out_ptr, val)
+
+
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    BLOCK_SIZE = 256
+    grid = lambda meta: (triton.cdiv(SIZE_M * D_HEAD, BLOCK_SIZE),)
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_SIZE,
+    )
+    return out
+
+
+if __name__ == "__main__":
+    SIZE_M = 64
+    D_HEAD = 128
+    out = wrapper(SIZE_M, D_HEAD)
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    ref = matrix.t()
+    assert torch.allclose(ref, out), abs(ref - out).max()
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py.stdout
new file mode 100644
index 0000000..4732268
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_869907.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_869907.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py
new file mode 100644
index 0000000..f061654
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py
@@ -0,0 +1,105 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M: tl.constexpr,
+    D_HEAD: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_d = pid_d * BLOCK_D + tl.arange(0, BLOCK_D)
+
+    mask_m = offs_m < SIZE_M
+    mask_d = offs_d < D_HEAD
+
+    mask = mask_m[:, None] & mask_d[None, :]
+
+    matrix_ptrs = M + offs_m[:, None] * matrix_stridex + offs_d[None, :] * matrix_stridey
+    out_ptrs = Out + offs_d[:, None] * out_stridex + offs_m[None, :] * out_stridey
+
+    data = tl.load(matrix_ptrs, mask=mask)
+    tl.store(out_ptrs, data, mask=mask.T)
+
+def wrapper(SIZE_M: int, D_HEAD: int) -> torch.Tensor:
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    BLOCK_M = 32
+    BLOCK_D = 32
+
+    grid = (triton.cdiv(SIZE_M, BLOCK_M), triton.cdiv(D_HEAD, BLOCK_D))
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(1),
+        matrix.stride(0),
+        out.stride(1),
+        out.stride(0),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M=BLOCK_M,
+        BLOCK_D=BLOCK_D,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py.stdout
new file mode 100644
index 0000000..1abe6de
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_879575.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_879575.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py
new file mode 100644
index 0000000..a1ded3c
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py
@@ -0,0 +1,87 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    BLOCK_M = 16
+    BLOCK_N = 16
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)[:, None]
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)[None, :]
+
+    mask = (offs_m < SIZE_M) & (offs_n < D_HEAD)
+
+    m_ptrs = M + offs_m * matrix_stridex + offs_n * matrix_stridey
+    out_ptrs = Out + offs_n * out_stridex + offs_m * out_stridey
+
+    m_val = tl.load(m_ptrs, mask=mask)
+    tl.store(out_ptrs, m_val, mask=mask)
+
+def wrapper(size_m: int, d_head: int):
+    SIZE_M = size_m
+    D_HEAD = d_head
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    grid = (triton.cdiv(SIZE_M, 16), triton.cdiv(D_HEAD, 16))
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py.stdout
new file mode 100644
index 0000000..f37fa34
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_892743.py.stdout
@@ -0,0 +1,10 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_892743 due to at 8:31:
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    BLOCK_M = 16
+    BLOCK_N = 16
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)[:, None]
+                               ^
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py
new file mode 100644
index 0000000..f8f9139
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py
@@ -0,0 +1,88 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD,
+           BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)[:, None]
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)[None, :]
+
+    mask = (offs_m < SIZE_M) & (offs_n < D_HEAD)
+
+    m_ptrs = M + offs_m * matrix_stridex + offs_n * matrix_stridey
+    out_ptrs = Out + offs_n * out_stridex + offs_m * out_stridey
+
+    m_val = tl.load(m_ptrs, mask=mask)
+    tl.store(out_ptrs, m_val, mask=mask)
+
+def wrapper(size_m: int, d_head: int):
+    SIZE_M = size_m
+    D_HEAD = d_head
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    BLOCK_M = 16
+    BLOCK_N = 16
+    grid = (triton.cdiv(SIZE_M, BLOCK_M), triton.cdiv(D_HEAD, BLOCK_N))
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD,
+        BLOCK_M=BLOCK_M, BLOCK_N=BLOCK_N
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_917011.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py
new file mode 100644
index 0000000..37a2b05
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py
@@ -0,0 +1,107 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+    BLOCK_M: tl.constexpr,
+    BLOCK_D: tl.constexpr,
+):
+    pid_m = tl.program_id(0) * BLOCK_M
+    pid_d = tl.program_id(1) * BLOCK_D
+
+    m_offs = pid_m + tl.arange(0, BLOCK_M)
+    d_offs = pid_d + tl.arange(0, BLOCK_D)
+
+    mask_m = m_offs < SIZE_M
+    mask_d = d_offs < D_HEAD
+
+    src_ptrs = M + d_offs[None, :] * matrix_stridey + m_offs[:, None] * matrix_stridex
+    mask = mask_m[:, None] & mask_d[None, :]
+    src = tl.load(src_ptrs, mask=mask)
+
+    dst_ptrs = Out + m_offs[None, :] * out_stridex + d_offs[:, None] * out_stridey
+    tl.store(dst_ptrs, src, mask=mask.T)
+
+@torch.no_grad()
+def wrapper(SIZE_M: int, D_HEAD: int):
+    BLOCK_M = 32
+    BLOCK_D = 32
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.empty((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    grid = lambda META: (triton.cdiv(SIZE_M, META['BLOCK_M']),
+                         triton.cdiv(D_HEAD, META['BLOCK_D']))
+
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+        BLOCK_M=BLOCK_M,
+        BLOCK_D=BLOCK_D,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py.stdout
new file mode 100644
index 0000000..3011225
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_930305.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_transpose.py_gen_triton_code_930305.py
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py
new file mode 100644
index 0000000..2e1b8d7
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py
@@ -0,0 +1,87 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    BLOCK_M = 16
+    BLOCK_N = 16
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)[:, None]
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)[None, :]
+
+    mask = (offs_m < SIZE_M) & (offs_n < D_HEAD)
+
+    m_ptrs = M + offs_m * matrix_stridex + offs_n * matrix_stridey
+    out_ptrs = Out + offs_n * out_stridex + offs_m * out_stridey
+
+    m_val = tl.load(m_ptrs, mask=mask)
+    tl.store(out_ptrs, m_val, mask=mask)
+
+def wrapper():
+    SIZE_M = 64
+    D_HEAD = 128
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    grid = (triton.cdiv(SIZE_M, 16), triton.cdiv(D_HEAD, 16))
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py.stdout
new file mode 100644
index 0000000..57a585c
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_953212.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_953212 due to wrapper() takes 0 positional arguments but 2 were given
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py
new file mode 100644
index 0000000..4bcc63a
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py
@@ -0,0 +1,90 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out,
+           matrix_stridex, matrix_stridey,
+           out_stridex, out_stridey,
+           SIZE_M: tl.constexpr, D_HEAD: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    cols = tl.arange(0, SIZE_M)
+    rows = tl.arange(0, D_HEAD)
+
+    mask = (cols[:, None] < SIZE_M) & (rows[None, :] < D_HEAD)
+
+    m_ptrs = M + cols[:, None] * matrix_stridey + rows[None, :] * matrix_stridex
+    o_ptrs = Out + rows[None, :] * out_stridey + cols[:, None] * out_stridex
+    
+    vals = tl.load(m_ptrs, mask=mask)
+    tl.store(o_ptrs, vals, mask=mask)
+
+def wrapper():
+    SIZE_M = 128
+    D_HEAD = 64
+    
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device='cuda')
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device='cuda')
+
+    grid = (1,)
+    kernel[grid](
+        matrix, out,
+        matrix.stride(1), matrix.stride(0),
+        out.stride(1), out.stride(0),
+        SIZE_M, D_HEAD,
+        num_warps=4,
+        num_stages=2
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py.stdout
new file mode 100644
index 0000000..889f3e4
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_984648.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_984648 due to wrapper() takes 0 positional arguments but 2 were given
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py b/src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py
new file mode 100644
index 0000000..fccc2bc
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py
@@ -0,0 +1,102 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(
+    M,
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+):
+    pid_m = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    offs_m = pid_m * D_HEAD + tl.arange(0, D_HEAD)
+    offs_d = pid_d * SIZE_M + tl.arange(0, SIZE_M)
+
+    mask_m = offs_m < SIZE_M * D_HEAD
+    mask_d = offs_d < SIZE_M * D_HEAD
+
+    src_ptrs = M + offs_m[:, None] * matrix_stridex + offs_d[None, :] * matrix_stridey
+    src_mask = (offs_m[:, None] < SIZE_M) & (offs_d[None, :] < D_HEAD)
+
+    src_data = tl.load(src_ptrs, mask=src_mask, other=0.0)
+
+    dst_ptrs = Out + offs_d[:, None] * out_stridex + offs_m[None, :] * out_stridey
+    dst_mask = (offs_d[:, None] < D_HEAD) & (offs_m[None, :] < SIZE_M)
+
+    tl.store(dst_ptrs, src_data.T, mask=dst_mask)
+
+@torch.no_grad()
+def wrapper(SIZE_M: int, D_HEAD: int):
+    matrix = torch.randn((SIZE_M, D_HEAD), dtype=torch.float16, device="cuda")
+    out = torch.zeros((D_HEAD, SIZE_M), dtype=torch.float16, device="cuda")
+
+    grid = (1,)
+    kernel[grid](
+        matrix,
+        out,
+        matrix.stride(0),
+        matrix.stride(1),
+        out.stride(0),
+        out.stride(1),
+        SIZE_M,
+        D_HEAD,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_triton_vs_torch():
+
+    results = {}
+
+
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+
+    size_m, d_head = 16, 16
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_1"] = out.clone()
+
+
+
+    # 测试用例 2: 非方形矩阵
+
+    size_m, d_head = 32, 64
+
+    out = wrapper(size_m, d_head)
+
+    results["test_case_2"] = out.clone()
+
+
+
+    return results
+
+
+
+
+
+# 运行测试
+
+result_gold = test_triton_vs_torch()
+
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py.stderr b/src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py.stdout b/src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py.stdout
new file mode 100644
index 0000000..3e71b8f
--- /dev/null
+++ b/src/temp/gen/matrix_transpose.py_gen_triton_code_997014.py.stdout
@@ -0,0 +1,14 @@
+False*#*#None*#*#None*#*#Could not execute module matrix_transpose.py_gen_triton_code_997014 due to at 14:30:
+    Out,
+    matrix_stridex,
+    matrix_stridey,
+    out_stridex,
+    out_stridey,
+    SIZE_M,
+    D_HEAD,
+):
+    pid_m = tl.program_id(0)
+    pid_d = tl.program_id(1)
+
+    offs_m = pid_m * D_HEAD + tl.arange(0, D_HEAD)
+                              ^
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py
new file mode 100644
index 0000000..e612788
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py
@@ -0,0 +1,87 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A_ptr, B_ptr, C_ptr, N, M, stride_am, stride_ak, stride_bk, stride_cn, BLOCK_N: tl.constexpr, BLOCK_M: tl.constexpr):
+    pid = tl.program_id(0)
+    row_start = pid * BLOCK_N
+    offs_n = row_start + tl.arange(0, BLOCK_N)
+
+    col_start = 0
+    acc = tl.zeros((BLOCK_N,), dtype=tl.float32)
+    for col_start in range(0, M, BLOCK_M):
+        offs_m = col_start + tl.arange(0, BLOCK_M)
+        a_idx = A_ptr + offs_n[:, None] * stride_am + offs_m[None, :] * stride_ak
+        a_mask = (offs_n[:, None] < N) & (offs_m[None, :] < M)
+        a_vals = tl.load(a_idx, mask=a_mask, other=0.0)
+
+        b_idx = B_ptr + offs_m * stride_bk
+        b_mask = offs_m < M
+        b_vals = tl.load(b_idx, mask=b_mask, other=0.0)
+
+        acc += tl.sum(a_vals * b_vals[None, :], axis=1)
+
+    c_idx = C_ptr + offs_n * stride_cn
+    c_mask = offs_n < N
+    tl.store(c_idx, acc, mask=c_mask)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor) -> torch.Tensor:
+    assert A.dim() == 2 and B.dim() == 1, "A must be 2D and B must be 1D"
+    assert A.size(1) == B.size(0), "Inner matrix dimensions must agree"
+    N, M = A.shape
+    C = torch.empty((N,), dtype=torch.float32, device=A.device)
+
+    def grid(meta):
+        return (triton.cdiv(N, meta['BLOCK_N']),)
+
+    mv_kernel[grid](
+        A, B, C, N, M,
+        A.stride(0), A.stride(1), B.stride(0), C.stride(0),
+        BLOCK_N=32, BLOCK_M=32
+    )
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_164112.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py
new file mode 100644
index 0000000..253dd7b
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py
@@ -0,0 +1,88 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A, B, C, M, N, stride_am, stride_an, stride_bn, stride_cm, BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    rm = tl.where(rm < M, rm, 0)
+    rn = tl.where(rn < N, rn, 0)
+    acc = tl.zeros([BLOCK_M], dtype=tl.float32)
+
+    for k in range(0, N, BLOCK_N):
+        a_idx = (rm[:, None] * stride_am + (k + rn)[None, :] * stride_an)
+        b_idx = (k + rn) * stride_bn
+        a = tl.load(A + a_idx, mask=(k + rn)[None, :] < N, other=0).to(tl.float32)
+        b = tl.load(B + b_idx, mask=(k + rn) < N, other=0).to(tl.float32)
+        acc += tl.sum(a * b[None, :], axis=1)
+
+    c_idx = rm * stride_cm
+    mask = rm < M
+    tl.store(C + c_idx, acc, mask=mask)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor):
+    assert A.dim() == 2 and B.dim() == 1, "A must be 2D and B must be 1D"
+    M, N = A.shape
+    assert B.shape[0] == N, "Dimension mismatch between matrix and vector"
+    assert A.device == B.device, "Input tensors must be on the same device"
+    assert A.dtype in [torch.float16, torch.float32] and B.dtype in [torch.float16, torch.float32], "dtypes must be float16 or float32"
+
+    C = torch.empty((M,), dtype=A.dtype, device=A.device)
+    grid = lambda meta: (triton.cdiv(M, meta['BLOCK_M']),)
+
+    mv_kernel[grid](
+        A, B, C, M, N,
+        A.stride(0), A.stride(1),
+        B.stride(0),
+        C.stride(0),
+        BLOCK_M=64,
+        BLOCK_N=32
+    )
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py.stdout
new file mode 100644
index 0000000..e9c6751
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_205689.py.stdout
@@ -0,0 +1 @@
+True*#*#False*#*#None*#*#Generated output does not match reference output for file: matrix_vector_multip.py_gen_triton_code_205689.py
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py
new file mode 100644
index 0000000..cee87ab
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py
@@ -0,0 +1,88 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A, B, C, stride_am, stride_an, stride_b, stride_cm,
+              N: tl.constexpr, M: tl.constexpr, BLOCK_N: tl.constexpr, BLOCK_M: tl.constexpr):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_N
+    offs_n = block_start + tl.arange(0, BLOCK_N)
+    offs_m = tl.arange(0, BLOCK_M)
+
+    mask_n = offs_n < N
+    acc = tl.zeros([BLOCK_N], dtype=tl.float32)
+
+    for start_m in range(0, M, BLOCK_M):
+        offs_m_curr = start_m + offs_m
+        mask_m = offs_m_curr < M
+        a_ptrs = A + (offs_n[:, None] * stride_am + offs_m_curr[None, :] * stride_an)
+        b_ptrs = B + offs_m_curr * stride_b
+        a = tl.load(a_ptrs, mask=mask_n[:, None] & mask_m[None, :], other=0.0)
+        b = tl.load(b_ptrs, mask=mask_m, other=0.0)
+        acc += tl.sum(a * b[None, :], axis=1)
+
+    c_ptrs = C + offs_n * stride_cm
+    tl.store(c_ptrs, acc, mask=mask_n)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor) -> torch.Tensor:
+    assert A.dim() == 2, "A must be 2D"
+    assert B.dim() == 1, "B must be 1D"
+    N, M = A.shape
+    assert B.shape[0] == M, "A and B shapes incompatible"
+
+    C = torch.empty(N, dtype=A.dtype, device=A.device)
+
+    grid = lambda meta: (triton.cdiv(N, meta['BLOCK_N']),)
+
+    mv_kernel[grid](
+        A, B, C,
+        A.stride(0), A.stride(1), B.stride(0), C.stride(0),
+        N, M,
+        BLOCK_N=64, BLOCK_M=64,
+    )
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_334537.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py
new file mode 100644
index 0000000..dc86e3c
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py
@@ -0,0 +1,111 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(
+    A, B, C,
+    N, M,
+    stride_am, stride_an,
+    stride_b,
+    stride_c,
+    BLOCK_N: tl.constexpr,
+    BLOCK_M: tl.constexpr
+):
+    pid = tl.program_id(0)
+
+    block_start = pid * BLOCK_N
+    offs_n = block_start + tl.arange(0, BLOCK_N)
+    col_mask = offs_n < N
+
+    acc = tl.zeros([BLOCK_N], dtype=tl.float32)
+
+    for mid in range(0, M, BLOCK_M):
+        offs_m = mid + tl.arange(0, BLOCK_M).to(tl.int32)
+
+        # Compute A pointers [BLOCK_N, BLOCK_M]
+        a_ptrs = A + offs_n[:, None] * stride_am + offs_m[None, :] * stride_an
+        mask_a = col_mask[:, None] & (offs_m[None, :] < M)
+
+        a_block = tl.load(a_ptrs, mask=mask_a, other=0.0)
+
+        # Compute B pointers [BLOCK_M]
+        b_ptrs = B + offs_m * stride_b
+        mask_b = offs_m < M
+        b_block = tl.load(b_ptrs, mask=mask_b, other=0.0)
+
+        # Reduce along block_m dimension
+        acc += tl.sum(a_block * b_block[None, :], axis=1).to(tl.float32)
+
+    # Store
+    c_ptrs = C + offs_n * stride_c
+    tl.store(c_ptrs, acc.to(C.type.element_ty), mask=col_mask)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor) -> torch.Tensor:
+    assert A.dim() == 2, "A must be a 2D matrix (N x M)"
+    assert B.dim() == 1, "B must be a 1D vector (M)"
+    assert A.shape[1] == B.shape[0], "Matrix-vector dimension mismatch"
+
+    N, M = A.shape
+    C = torch.empty((N,), dtype=A.dtype, device=A.device)
+
+    BLOCK_N = 64
+    BLOCK_M = 64
+
+    grid = lambda META: (triton.cdiv(N, META['BLOCK_N']), )
+
+    mv_kernel[grid](
+        A, B, C,
+        N, M,
+        A.stride(0), A.stride(1),
+        B.stride(0),
+        C.stride(0),
+        BLOCK_N=BLOCK_N,
+        BLOCK_M=BLOCK_M
+    )
+
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_370413.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py
new file mode 100644
index 0000000..9d7ded6
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py
@@ -0,0 +1,86 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A, B, C, M, N, stride_am, stride_an, stride_bn, stride_cm,
+              BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    mask_m = rm < M
+    acc = tl.zeros([BLOCK_M], dtype=tl.float32)
+
+    for k in range(0, N, BLOCK_N):
+        rn = k + tl.arange(0, BLOCK_N)
+        mask_n = rn < N
+        a_idx = rm[:, None] * stride_am + rn[None, :] * stride_an
+        a = tl.load(A + a_idx, mask=(mask_m[:, None] & mask_n[None, :]), other=0.)
+        b_idx = rn * stride_bn
+        b = tl.load(B + b_idx, mask=mask_n, other=0.)
+        acc += tl.sum(a * b[None, :], axis=1)
+
+    c_idx = rm * stride_cm
+    tl.store(C + c_idx, acc, mask=mask_m)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor):
+    assert A.dim() == 2 and B.dim() == 1, "A must be 2D and B must be 1D"
+    M, N = A.shape
+    assert N == B.shape[0], "Dimension mismatch between matrix and vector"
+    assert A.device == B.device, "Input tensors must be on the same device"
+    assert A.dtype in [torch.float16, torch.float32] and B.dtype in [torch.float16, torch.float32]
+
+    C = torch.empty((M,), dtype=A.dtype, device=A.device)
+    grid = lambda meta: (triton.cdiv(M, meta["BLOCK_M"]),)
+    mv_kernel[grid](
+        A, B, C, M, N,
+        A.stride(0), A.stride(1),
+        B.stride(0),
+        C.stride(0),
+        BLOCK_M=64,
+        BLOCK_N=64
+    )
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_424820.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py
new file mode 100644
index 0000000..1164574
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py
@@ -0,0 +1,88 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A, B, C, N, M, BLOCK_N: tl.constexpr, BLOCK_M: tl.constexpr):
+    pid_n = tl.program_id(0)
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    offs_m = tl.arange(0, BLOCK_M)
+
+    acc = tl.zeros([BLOCK_N], dtype=tl.float32)
+
+    for m_start in range(0, M, BLOCK_M):
+        offs_m_cur = m_start + offs_m
+        mask_m = offs_m_cur < M
+        offs_a = A + offs_n[:, None] * M + offs_m_cur[None, :]
+        mask_a = (offs_n[:, None] < N) & mask_m[None, :]
+        a_block = tl.load(offs_a, mask=mask_a, other=0.0)
+        offs_b = B + offs_m_cur
+        b_vals = tl.load(offs_b, mask=mask_m, other=0.0)
+        acc += tl.sum(a_block * b_vals[None, :], axis=1)
+
+    offs_c = C + offs_n
+    mask_c = offs_n < N
+    tl.store(offs_c, acc.to(C.type.element_ty), mask=mask_c)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor) -> torch.Tensor:
+    assert A.dim() == 2 and B.dim() == 1, "A must be 2-D and B must be 1-D"
+    N, M = A.shape
+    assert B.shape[0] == M, "Dimension mismatch: B must have size M where A is NxM"
+    C = torch.empty((N,), dtype=A.dtype, device=A.device)
+
+    BLOCK_N = 64
+    BLOCK_M = 64
+    grid = lambda META: (triton.cdiv(N, META['BLOCK_N']),)
+
+    mv_kernel[grid](
+        A, B, C,
+        N, M,
+        BLOCK_N=BLOCK_N,
+        BLOCK_M=BLOCK_M
+    )
+
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554113.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py
new file mode 100644
index 0000000..e5e6119
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py
@@ -0,0 +1,101 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(
+    A_ptr, B_ptr, C_ptr,
+    M, N,
+    stride_am, stride_an,
+    stride_bn,
+    stride_cm,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_n = tl.arange(0, BLOCK_N)
+
+    acc = tl.zeros([BLOCK_M], dtype=tl.float32)
+
+    for start_n in range(0, N, BLOCK_N):
+        current_n = start_n + offs_n
+        a_ptrs = A_ptr + (offs_m[:, None] * stride_am + current_n[None, :] * stride_an)
+        b_ptrs = B_ptr + current_n * stride_bn
+        mask = (offs_m[:, None] < M) & (current_n[None, :] < N)
+
+        a_vals = tl.load(a_ptrs, mask=mask, other=0.0).to(tl.float32)
+        b_vals = tl.load(b_ptrs, mask=current_n < N, other=0.0).to(tl.float32)
+
+        acc += tl.sum(a_vals * b_vals[None, :], axis=1)
+
+    c_ptrs = C_ptr + offs_m * stride_cm
+    mask = offs_m < M
+    tl.store(c_ptrs, acc.to(tl.float32), mask=mask)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor) -> torch.Tensor:
+    assert A.dim() == 2, "A must be 2-D (M x N)"
+    assert B.dim() == 1, "B must be 1-D (N)"
+    M, N = A.shape
+    assert B.shape[0] == N, "B must have same length as N dimension of A"
+
+    C = torch.empty(M, device=A.device, dtype=A.dtype)
+
+    BLOCK_M = 32
+    BLOCK_N = 32
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']),)
+
+    mv_kernel[grid](
+        A, B, C,
+        M, N,
+        A.stride(0), A.stride(1),
+        B.stride(0),
+        C.stride(0),
+        BLOCK_M=BLOCK_M, BLOCK_N=BLOCK_N,
+    )
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_554981.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py
new file mode 100644
index 0000000..521353b
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py
@@ -0,0 +1,98 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A, B, C, M, N, stride_am, stride_an, stride_b, stride_c, BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rn = tl.arange(0, BLOCK_N)
+
+    acc = tl.zeros([BLOCK_M], dtype=tl.float32)
+
+    for k in range(0, N, BLOCK_N):
+        rn_k = k + rn
+        mask_a = (rm[:, None] < M) & (rn_k[None, :] < N)
+        mask_b = rn_k < N
+
+        a_ptrs = A + (rm[:, None] * stride_am + rn_k[None, :] * stride_an)
+        b_ptrs = B + rn_k * stride_b
+
+        a_block = tl.load(a_ptrs, mask=mask_a, other=0.0).to(tl.float32)
+        b_block = tl.load(b_ptrs, mask=mask_b, other=0.0).to(tl.float32)
+
+        acc += tl.sum(a_block * b_block[None, :], axis=1)
+
+    mask_c = rm < M
+    c_ptrs = C + rm * stride_c
+    tl.store(c_ptrs, acc, mask=mask_c)
+
+
+def mv(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.dim() == 2
+    assert b.dim() == 1
+    assert a.size(1) == b.size(0)
+
+    M, N = a.shape
+    C = torch.empty(M, dtype=a.dtype, device=a.device)
+
+    BLOCK_M = 64
+    BLOCK_N = 64
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']),)
+
+    mv_kernel[grid](
+        a, b, C,
+        M, N,
+        a.stride(0), a.stride(1),
+        b.stride(0),
+        C.stride(0),
+        BLOCK_M=BLOCK_M,
+        BLOCK_N=BLOCK_N
+    )
+
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_561330.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py
new file mode 100644
index 0000000..f5e907f
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py
@@ -0,0 +1,95 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A, B, C, M, N, stride_am, stride_an, stride_b, stride_c,
+              BLOCK_M: tl.constexpr, BLOCK_N: tl.constexpr):
+    pid_m = tl.program_id(0)
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_n = tl.arange(0, BLOCK_N)
+
+    # Compute block pointer for C
+    c_ptrs = C + offs_m * stride_c
+    mask_m = offs_m < M
+    c_acc = tl.zeros([BLOCK_M], dtype=tl.float32)
+
+    # Load A (BLOCK_M x BLOCK_N)
+    a_blk_ptrs = A + (offs_m[:, None] * stride_am + offs_n[None, :] * stride_an)
+    # Load and compute
+    for start_n in range(0, N, BLOCK_N):
+        # Offset to current block in N
+        curr_n = start_n + offs_n
+        mask_n = curr_n < N
+        a_ptrs = a_blk_ptrs + start_n * stride_an
+        a = tl.load(a_ptrs, mask=(mask_m[:, None] & mask_n[None, :]), other=0.0)
+
+        b_ptrs = B + curr_n * stride_b
+        b = tl.load(b_ptrs, mask=mask_n, other=0.0).to(tl.float32)
+        c_acc += tl.sum(a.to(tl.float32) * b[None, :], axis=1)
+
+    tl.store(c_ptrs, c_acc.to(C.type.element_ty), mask=mask_m)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor, C: torch.Tensor = None):
+    assert A.dim() == 2 and B.dim() == 1, "A must be 2-D and B must be 1-D"
+    M, N = A.shape
+    assert B.shape[0] == N, "Inner dimensions must match"
+    if C is None:
+        C = torch.empty(M, dtype=A.dtype, device=A.device)
+
+    stride_am = A.stride(0)
+    stride_an = A.stride(1)
+    stride_b = B.stride(0)
+    stride_c = C.stride(0)
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_M']),)
+    mv_kernel[grid](
+        A, B, C, M, N,
+        stride_am, stride_an, stride_b, stride_c,
+        BLOCK_M=64, BLOCK_N=32
+    )
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_686366.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py
new file mode 100644
index 0000000..bc75064
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py
@@ -0,0 +1,99 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(A, B, C, M, N, stride_am, stride_an, stride_b, stride_c,
+              BLOCK_N: tl.constexpr, BLOCK_M: tl.constexpr):
+    pid_m = tl.program_id(0)
+    offs_m = pid_m * BLOCK_N + tl.arange(0, BLOCK_N)
+
+    acc = tl.zeros([BLOCK_N], dtype=tl.float32)
+    offs_b_base = tl.arange(0, BLOCK_M)
+
+    for k in range(0, M, BLOCK_M):
+        offs_k = k + offs_b_base
+        mask_A = (offs_m[:, None] < N) & (offs_k[None, :] < M)
+        offs_A = A + offs_m[:, None] * stride_am + offs_k[None, :] * stride_an
+        a_tile = tl.load(offs_A, mask=mask_A, other=0.0)
+        mask_B = offs_k < M
+        offs_B = B + offs_k * stride_b
+        b_vec = tl.load(offs_B, mask=mask_B, other=0.0)
+        acc += tl.sum(a_tile * b_vec[None, :], axis=1)
+
+    offs_c = C + offs_m * stride_c
+    mask_c = offs_m < N
+    tl.store(offs_c, acc.to(C.type.element_ty), mask=mask_c)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor) -> torch.Tensor:
+    assert A.dim() == 2, "Input tensor A must be 2D (N x M)"
+    assert B.dim() == 1, "Input tensor B must be 1D"
+    N, M = A.shape
+    assert B.shape[0] == M, "Incompatible dimensions for MV multiplication"
+
+    C = torch.empty((N,), dtype=A.dtype, device=A.device)
+
+    BLOCK_N = 64
+    BLOCK_M = 32
+
+    grid = lambda META: (triton.cdiv(N, META['BLOCK_N']), )
+
+    mv_kernel[grid](
+        A,
+        B,
+        C,
+        M,
+        N,
+        A.stride(0),
+        A.stride(1),
+        B.stride(0),
+        C.stride(0),
+        BLOCK_N=BLOCK_N,
+        BLOCK_M=BLOCK_M,
+    )
+
+    return C
+
+
+##################################################################################################################################################
+
+
+
+
+
+def test_mv():
+
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+
+    triton_result_2 = mv(A, B)
+
+
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+
+    A = torch.randn(32, 16, device='cuda')
+
+    B = torch.randn(16, device='cuda')
+
+    triton_result_3 = mv(A, B)
+
+
+
+    return {
+
+        "test_case_2": triton_result_2,
+
+        "test_case_3": triton_result_3,
+
+    }
+
+
+
+result_gold = test_mv()
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py.stderr b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py.stderr
new file mode 100644
index 0000000..59ad8c4
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py.stderr
@@ -0,0 +1,2 @@
+/opt/conda/envs/py_3.12/lib/python3.12/site-packages/redis/connection.py:77: UserWarning: redis-py works best with hiredis. Please consider installing
+  warnings.warn(msg)
diff --git a/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py.stdout b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/matrix_vector_multip.py_gen_triton_code_80693.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_105954.py b/src/temp/gen/rotary_transform.py_gen_triton_code_105954.py
new file mode 100644
index 0000000..9a97e64
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_105954.py
@@ -0,0 +1,312 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    stride_out_batch,
+    stride_out_nheads,
+    stride_out_seqlen,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_nheads,
+    stride_x_seqlen,
+    stride_x_headdim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_batch = tl.program_id(1)
+    pid_head = tl.program_id(2)
+
+    if not IS_VARLEN:
+        x_ptr = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+        cos_ptr = COS + pid_batch * seqlen_ro * (rotary_dim // 2)
+        sin_ptr = SIN + pid_batch * seqlen_ro * (rotary_dim // 2)
+        seqlen_i = seqlen
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seqlen_i = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        x_ptr = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        out_ptr = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+        cos_ptr = COS
+        sin_ptr = SIN
+
+    if pid_m * BLOCK_M >= seqlen_i:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rk = tl.arange(0, BLOCK_K)
+    rk_half = tl.arange(0, BLOCK_K // 2)
+
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+
+    # Masks
+    mask_m = rm < seqlen_i
+    mask_k_half = rk_half < (rotary_dim // 2)
+
+    if not INTERLEAVED:
+        # Non-interleaved: contiguous real and imag parts
+        x_real_offset = x_ptr + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x_imag_offset = x_real_offset + (rotary_dim // 2) * stride_x_headdim
+
+        x_real = tl.load(x_real_offset, mask=mask_m[:, None] & mask_k_half[None, :], other=0.0).to(tl.float32)
+        x_imag = tl.load(x_imag_offset, mask=mask_m[:, None] & mask_k_half[None, :], other=0.0).to(tl.float32)
+
+        cos_offset = cos_ptr + rm_cs[:, None] * (rotary_dim // 2) + rk_half[None, :]
+        sin_offset = sin_ptr + rm_cs[:, None] * (rotary_dim // 2) + rk_half[None, :]
+
+        cos = tl.load(cos_offset, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half[None, :], other=1.0).to(tl.float32)
+        sin_val = tl.load(sin_offset, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half[None, :], other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin_val = -sin_val
+
+        o_real = x_real * cos - x_imag * sin_val
+        o_imag = x_real * sin_val + x_imag * cos
+
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 o_real, mask=mask_m[:, None] & mask_k_half[None, :])
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + (rotary_dim // 2 + rk_half[None, :]) * stride_out_headdim,
+                 o_imag, mask=mask_m[:, None] & mask_k_half[None, :])
+    else:
+        # Interleaved: even indices real, odd indices imag
+        rk_even = rk * 2
+        rk_odd = rk * 2 + 1
+        rk_half = rk // 2
+
+        mask_k_even = (rk_even < rotary_dim)
+        mask_k_odd = (rk_odd < rotary_dim)
+        mask_k_half_ready = rk_half < (rotary_dim // 2)
+
+        cos_offset = cos_ptr + rm_cs[:, None] * (rotary_dim // 2) + rk_half[None, :]
+        sin_offset = sin_ptr + rm_cs[:, None] * (rotary_dim // 2) + rk_half[None, :]
+
+        cos_val = tl.load(cos_offset, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half_ready[None, :], other=1.0).to(tl.float32)
+        sin_val = tl.load(sin_offset, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half_ready[None, :], other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin_val = -sin_val
+
+        x_even_offset = x_ptr + rm[:, None] * stride_x_seqlen + rk_even[None, :] * stride_x_headdim
+        x_odd_offset = x_ptr + rm[:, None] * stride_x_seqlen + rk_odd[None, :] * stride_x_headdim
+
+        x_even = tl.load(x_even_offset, mask=mask_m[:, None] & mask_k_even[None, :], other=0.0).to(tl.float32)
+        x_odd = tl.load(x_odd_offset, mask=mask_m[:, None] & mask_k_odd[None, :], other=0.0).to(tl.float32)
+
+        grouped_even = x_even.reshape([-1, x_even.shape[1] // 2, 2])
+        grouped_odd = x_odd.reshape([-1, x_odd.shape[1] // 2, 2])
+
+        grouped_even_t = grouped_even[:, :, 0]
+        grouped_odd_t = grouped_odd[:, :, 0]
+
+        out_even = grouped_even_t * cos_val - grouped_odd_t * sin_val
+        out_odd = grouped_even_t * sin_val + grouped_odd_t * cos_val
+
+        out_even_unpacked = out_even.reshape(x_even.shape)
+        out_odd_unpacked = out_odd.reshape(x_even.shape)
+
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_even[None, :] * stride_out_headdim,
+                 out_even_unpacked, mask=mask_m[:, None] & mask_k_even[None, :])
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_odd[None, :] * stride_out_headdim,
+                 out_odd_unpacked, mask=mask_m[:, None] & mask_k_odd[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    batch, seqlen, nheads, headdim = x.shape
+    batch_ro, seqlen_ro, rotary_dim_half = cos.shape
+
+    assert batch == batch_ro, f"batch mismatch: {batch} != {batch_ro}"
+    assert sin.shape == cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim, f"rotary_dim ({rotary_dim}) must be <= headdim ({headdim})"
+    assert cos.dtype == sin.dtype == x.dtype, "All dtypes must match"
+    assert not (cu_seqlens is not None and max_seqlen is None), "max_seqlen is required with cu_seqlens"
+
+    seqlen_ro_needed = seqlen
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in [torch.int32, torch.int64]
+        seqlen_offsets = seqlen_offsets.to(torch.int32).contiguous()
+        seqlen_ro_needed += seqlen_offsets.max().item()
+    else:
+        seqlen_ro_needed += seqlen_offsets
+    assert seqlen_ro >= seqlen_ro_needed, f"seqlen_ro ({seqlen_ro}) must be >= seqlen_ro_needed ({seqlen_ro_needed})"
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+
+    output = x if inplace else torch.empty_like(x)
+    if not inplace and rotary_dim < headdim:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = 32 if rotary_dim <= 32 else (64 if rotary_dim <= 64 else (128 if rotary_dim <= 128 else 256))
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    IS_VARLEN = (cu_seqlens is not None)
+    CU_SEQLENS_ptr = (cu_seqlens.int().contiguous() if IS_VARLEN else None)
+
+    rotary_kernel[grid](
+        output,
+        x,
+        cos,
+        sin,
+        CU_SEQLENS_ptr,
+        seqlen_offsets,
+        seqlen,
+        nheads,
+        rotary_dim,
+        seqlen_ro,
+        seqlen // 128,
+        output.stride(0),
+        output.stride(2),
+        output.stride(1),
+        output.stride(3),
+        x.stride(0),
+        x.stride(2),
+        x.stride(1),
+        x.stride(3),
+        BLOCK_K=BLOCK_K,
+        IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+        IS_VARLEN=IS_VARLEN,
+        INTERLEAVED=interleaved,
+        CONJUGATE=conjugate,
+        BLOCK_M=BLOCK_M,
+    )
+
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_105954.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_105954.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_105954.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_105954.py.stdout
new file mode 100644
index 0000000..c9c90b6
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_105954.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_105954 due to not enough values to unpack (expected 3, got 2)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_260701.py b/src/temp/gen/rotary_transform.py_gen_triton_code_260701.py
new file mode 100644
index 0000000..8230c46
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_260701.py
@@ -0,0 +1,237 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    X, COS, SIN, CU_SEQLENS, SEQLENS, OUT,
+    stride_batch, stride_seqlen, stride_head, stride_dim,
+    rotary_dim, max_seqlen, total_seqlens,
+    nheads, seqlen_ro, interleaved, conj, BLOCK_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if pid_batch >= stride_batch:
+        return
+    if pid_head >= nheads:
+        return
+
+    if CU_SEQLENS is not None:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        seq_end = tl.load(CU_SEQLENS + pid_batch + 1)
+        seqlen_i = seq_end - seq_start
+    else:
+        seq_start = pid_batch * max_seqlen
+        seqlen_i = tl.load(SEQLENS + pid_batch) if SEQLENS is not None else max_seqlen
+
+    if pid_m >= seqlen_i:
+        return
+
+    offset_m = seq_start + pid_m
+
+    rotary_dim_half = rotary_dim // 2
+    BLOCK_K = tl.min(BLOCK_SIZE_M, rotary_dim_half)
+    for k in range(0, rotary_dim_half, BLOCK_K):
+        k_idx = k + tl.arange(0, BLOCK_K)
+        mask = k_idx < rotary_dim_half
+
+        pos_m = pid_m
+        cos_idx = pos_m * rotary_dim + k_idx
+        cos_offset = COS + cos_idx
+        cos_val = tl.load(cos_offset, mask=mask).to(tl.float32)
+
+        sin_idx = pos_m * rotary_dim + k_idx
+        sin_offset = SIN + sin_idx
+        sin_val = tl.load(sin_offset, mask=mask).to(tl.float32)
+        if conj:
+            sin_val = -sin_val
+
+        if interleaved:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + 2 * k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + 2 * k_idx + 1
+            mask_2 = 2 * k_idx + 1 < rotary_dim
+            x0 = tl.load(X + x_idx0, mask=mask_2).to(tl.float32)
+            x1 = tl.load(X + x_idx1, mask=mask_2).to(tl.float32)
+            out0 = x0 * cos_val - x1 * sin_val
+            out1 = x0 * sin_val + x1 * cos_val
+            tl.store(OUT + x_idx0, out0, mask=mask_2)
+            tl.store(OUT + x_idx1, out1, mask=mask_2)
+        else:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + k_idx + rotary_dim_half
+            mask_half = k_idx + rotary_dim_half < rotary_dim
+            x0 = tl.load(X + x_idx0, mask=mask).to(tl.float32)
+            x1 = tl.load(X + x_idx1, mask=mask_half).to(tl.float32)
+            out0 = x0 * cos_val - x1 * sin_val
+            out1 = x0 * sin_val + x1 * cos_val
+            tl.store(OUT + x_idx0, out0, mask=mask)
+            tl.store(OUT + x_idx1, out1, mask=mask_half)
+
+    if IS_EVEN_K:
+        return
+
+    k_offset = rotary_dim
+    total_dim = stride_dim
+    for d in range(rotary_dim, total_dim):
+        idx = offset_m * stride_seqlen + pid_head * stride_head + d
+        val = tl.load(X + idx)
+        tl.store(OUT + idx, val.astype(X.dtype.element_ty))
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seq_offset: int = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    seqlens: Optional[torch.Tensor] = None,
+    rotary_dim: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    batch, seqlen, nheads, headdim = x.shape
+    rotary_dim = rotary_dim or headdim
+
+    assert rotary_dim % 2 == 0, "rotary_dim must be even"
+    assert headdim >= rotary_dim, "headdim must be >= rotary_dim"
+    assert cos.shape == (seqlen, rotary_dim), f"cos shape mismatch: {cos.shape} vs ({seqlen}, {rotary_dim})"
+    assert sin.shape == (seqlen, rotary_dim), f"sin shape mismatch: {sin.shape} vs ({seqlen}, {rotary_dim})"
+
+    if not inplace:
+        out = torch.empty_like(x)
+    else:
+        out = x
+
+    BLOCK_SIZE_M = min(max(triton.next_power_of_2(rotary_dim // 2), 16), 64)
+    grid = lambda META: (batch, nheads, triton.cdiv(seqlen, META["BLOCK_M"]))
+
+    rotary_kernel[grid](
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlens,
+        out,
+        x.stride(0),
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        rotary_dim,
+        seqlen,
+        batch * seqlen,
+        nheads,
+        seqlen,
+        interleaved,
+        conjugate,
+        BLOCK_SIZE_M,
+        IS_EVEN_K=(headdim == rotary_dim),
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_260701.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_260701.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_260701.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_260701.py.stdout
new file mode 100644
index 0000000..d1ae5e4
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_260701.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_260701 due to cos shape mismatch: torch.Size([128, 16]) vs (128, 64)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_329295.py b/src/temp/gen/rotary_transform.py_gen_triton_code_329295.py
new file mode 100644
index 0000000..ba93256
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_329295.py
@@ -0,0 +1,287 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    seqlen,            # int32
+    nheads,            # int32
+    rotary_dim,        # int32
+    seqlen_ro,         # int32
+    CACHE_KEY_SEQLEN,  # int32
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    BLOCK_K    : tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR : tl.constexpr,
+    IS_VARLEN  : tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE  : tl.constexpr,
+    BLOCK_M    : tl.constexpr,
+):
+    pid_m    = tl.program_id(0)
+    pid_batch= tl.program_id(1)
+    pid_head = tl.program_id(2)
+
+    rot_half = rotary_dim // 2
+    offset_batch = pid_batch * stride_x_batch if IS_VARLEN == 0 else 0
+    cu_b = 0
+    cur_seqlen = seqlen
+    if IS_VARLEN != 0:
+        cu_b = tl.load(CU_SEQLENS + pid_batch)
+        cur_seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - cu_b
+    offset_x_batch = cu_b * stride_x_seqlen + pid_head * stride_x_nheads
+    offset_o_batch = cu_b * stride_out_seqlen + pid_head * stride_out_nheads
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    mask_m = rm < cur_seqlen
+
+    seq_off = tl.load(SEQLEN_OFFSETS + pid_batch) if IS_SEQLEN_OFFSETS_TENSOR else SEQLEN_OFFSETS
+    base_t = rm + seq_off
+
+    offs_k = tl.arange(0, BLOCK_K)
+
+    for k_base in range(0, rot_half, BLOCK_K):
+        k = k_base + offs_k
+        mask_k = k < rot_half
+
+        idx_cos_s = base_t[:, None] * rot_half + k[None, :]
+        mask_cs = (base_t[:, None] < seqlen_ro) & mask_k[None, :]
+        cos = tl.load(COS + idx_cos_s, mask=mask_cs, other=1.0).to(tl.float32)
+        sin = tl.load(SIN + idx_cos_s, mask=mask_cs, other=0.0).to(tl.float32)
+
+        if INTERLEAVED == 0:
+            idx0 = rm[:, None] * stride_x_seqlen + (k[None, :] * stride_x_headdim)
+            idx1 = rm[:, None] * stride_x_seqlen + ((k[None, :] + rot_half) * stride_x_headdim)
+            x0 = tl.load(X + offset_x_batch + idx0,
+                         mask=mask_m[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+            x1 = tl.load(X + offset_x_batch + idx1,
+                         mask=mask_m[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+            if CONJUGATE != 0:
+                sin = -sin
+            y0 = x0 * cos - x1 * sin
+            y1 = x0 * sin + x1 * cos
+            tl.store(OUT + offset_o_batch + idx0,
+                     y0, mask=mask_m[:, None] & mask_k[None, :])
+            tl.store(OUT + offset_o_batch + idx1,
+                     y1, mask=mask_m[:, None] & mask_k[None, :])
+        else:
+            idx_even = rm[:, None] * stride_x_seqlen + (2 * k[None, :] * stride_x_headdim)
+            idx_odd  = rm[:, None] * stride_x_seqlen + ((2 * k[None, :] + 1) * stride_x_headdim)
+            real = tl.load(X + offset_x_batch + idx_even,
+                           mask=mask_m[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+            imag = tl.load(X + offset_x_batch + idx_odd,
+                           mask=mask_m[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+            if CONJUGATE != 0:
+                sin = -sin
+            new_real = real * cos - imag * sin
+            new_imag = real * sin + imag * cos
+            tl.store(OUT + offset_o_batch + idx_even,
+                     new_real, mask=mask_m[:, None] & mask_k[None, :])
+            tl.store(OUT + offset_o_batch + idx_odd,
+                     new_imag, mask=mask_m[:, None] & mask_k[None, :])
+
+    for k_base in range(rotary_dim, stride_x_headdim, BLOCK_K):
+        k = k_base + offs_k
+        mask_k = k < stride_x_headdim
+        idx = rm[:, None] * stride_x_seqlen + k[None, :] * stride_x_headdim
+        val = tl.load(X + offset_x_batch + idx,
+                      mask=mask_m[:, None] & mask_k[None, :])
+        tl.store(OUT + offset_o_batch + idx,
+                 val, mask=mask_m[:, None] & mask_k[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.numel() - 1
+        seqlen = max_seqlen
+
+    seqlen_ro, rot_half = cos.shape
+    rotary_dim = rot_half * 2
+    assert rotary_dim <= headdim
+    assert seqlen_ro >= seqlen
+    assert rotary_dim % 2 == 0
+    assert cos.dtype == sin.dtype == x.dtype
+    assert headdim <= 512
+
+    x = x.contiguous()
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in (torch.int32, torch.int64)
+        seqlen_offsets = seqlen_offsets.to(torch.int32).contiguous()
+    else:
+        assert seqlen + seqlen_offsets <= seqlen_ro
+
+    cu_seqlens_host = None
+    if cu_seqlens is not None:
+        cu_seqlens = cu_seqlens.to(torch.int32).contiguous()
+        cu_seqlens_host = cu_seqlens
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = triton.next_power_of_2(min(rotary_dim // 2, 128))
+
+    grid = (triton.cdiv(seqlen, 4), batch, nheads)
+
+    rotary_kernel[grid](
+        output,
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlen_offsets,
+        seqlen,
+        nheads,
+        rotary_dim,
+        seqlen_ro,
+        0,
+        output.stride(-4) if not is_varlen else 0,
+        output.stride(-3),
+        output.stride(-2),
+        output.stride(-1),
+        x.stride(-4) if not is_varlen else 0,
+        x.stride(-3),
+        x.stride(-2),
+        x.stride(-1),
+        BLOCK_K,
+        isinstance(seqlen_offsets, torch.Tensor),
+        is_varlen,
+        interleaved,
+        conjugate,
+        4,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_329295.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_329295.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_329295.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_329295.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_329295.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_338032.py b/src/temp/gen/rotary_transform.py_gen_triton_code_338032.py
new file mode 100644
index 0000000..5867d85
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_338032.py
@@ -0,0 +1,321 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Union, Optional
+
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_batch = tl.program_id(1)
+    pid_head = tl.program_id(2)
+    rotary_dim_half = rotary_dim // 2
+
+    if not IS_VARLEN:
+        X = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        OUT = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        X = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        OUT = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= seqlen:
+        return
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    rk = tl.arange(0, BLOCK_K)
+    rk_half = tl.arange(0, BLOCK_K // 2)
+
+    if not INTERLEAVED:
+        x0_ptr = X + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x1_ptr = x0_ptr + rotary_dim_half * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * rotary_dim_half + rk_half[None, :]
+        sin_ptr = SIN + rm_cs[:, None] * rotary_dim_half + rk_half[None, :]
+
+        cos = tl.load(
+            cos_ptr,
+            mask=(rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half),
+            other=1.0,
+        ).to(tl.float32)
+        sin = tl.load(
+            sin_ptr,
+            mask=(rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half),
+            other=0.0,
+        ).to(tl.float32)
+        x0 = tl.load(
+            x0_ptr,
+            mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half),
+            other=0.0,
+        ).to(tl.float32)
+        x1 = tl.load(
+            x1_ptr,
+            mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half),
+            other=0.0,
+        ).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+
+        out0_ptr = OUT + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim
+        out1_ptr = out0_ptr + rotary_dim_half * stride_out_headdim
+        tl.store(
+            out0_ptr,
+            o0,
+            mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half),
+        )
+        tl.store(
+            out1_ptr,
+            o1,
+            mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half),
+        )
+    else:
+        rk_swap = rk + ((rk + 1) % 2) * 2 - 1
+        rk_repeat = tl.arange(0, BLOCK_K) // 2
+        x0_ptr = X + rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim
+        x1_ptr = X + rm[:, None] * stride_x_seqlen + rk_swap[None, :] * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * rotary_dim_half + rk_repeat[None, :]
+        sin_ptr = SIN + rm_cs[:, None] * rotary_dim_half + rk_repeat[None, :]
+
+        cos = tl.load(
+            cos_ptr,
+            mask=(rm_cs[:, None] < seqlen_ro) & (rk_repeat[None, :] < rotary_dim_half),
+            other=1.0,
+        ).to(tl.float32)
+        sin = tl.load(
+            sin_ptr,
+            mask=(rm_cs[:, None] < seqlen_ro) & (rk_repeat[None, :] < rotary_dim_half),
+            other=0.0,
+        ).to(tl.float32)
+        x0 = tl.load(
+            x0_ptr,
+            mask=(rm[:, None] < seqlen) & (rk[None, :] < rotary_dim),
+            other=0.0,
+        ).to(tl.float32)
+        x1 = tl.load(
+            x1_ptr,
+            mask=(rm[:, None] < seqlen) & (rk_swap[None, :] < rotary_dim),
+            other=0.0,
+        ).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+        out = tl.where(rk[None, :] % 2 == 0, x0 * cos - x1 * sin, x0 * cos + x1 * sin)
+        out_ptr = OUT + rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim
+        tl.store(out_ptr, out, mask=(rm[:, None] < seqlen) & (rk[None, :] < rotary_dim))
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        assert x.ndim == 4, "Expected 4-D tensor [batch, seqlen, heads, dim] for non-varlen inputs"
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None, "If cu_seqlens is provided, max_seqlen must be specified"
+        assert x.ndim == 3, "Expected 3-D tensor [total_seqlen, heads, dim] for varlen inputs"
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim, "rotary_dim must be <= headdim"
+    assert cos.dtype == sin.dtype and x.dtype == cos.dtype
+    assert seqlen_ro >= seqlen, "seqlen_ro must be >= seqlen"
+
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in (torch.int32, torch.int64)
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert int(seqlen_offsets) + seqlen <= seqlen_ro
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        (output[..., rotary_dim:].copy_(x[..., rotary_dim:]) if not is_varlen
+         else output[:, rotary_dim:].copy_(x[:, rotary_dim:]))
+
+    BLOCK_K = 32 if rotary_dim <= 32 else (
+        64 if rotary_dim <= 64 else (
+            128 if rotary_dim <= 128 else 256
+        )
+    )
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    def stride_or_zero(tensor, idx, fixed=None):
+        return tensor.stride(idx) if fixed is None else fixed
+
+    with torch.cuda.device(x.device.index):
+        rotary_kernel[grid](
+            output,
+            x,
+            cos,
+            sin,
+            cu_seqlens,
+            seqlen_offsets,
+            seqlen,
+            nheads,
+            rotary_dim,
+            seqlen_ro,
+            seqlen // 128,
+            stride_or_zero(output, -4, 0) if not is_varlen else 0,
+            output.stride(-3),
+            output.stride(-2),
+            output.stride(-1),
+            stride_or_zero(x, -4, 0) if not is_varlen else 0,
+            x.stride(-3),
+            x.stride(-2),
+            x.stride(-1),
+            BLOCK_K,
+            isinstance(seqlen_offsets, torch.Tensor),
+            is_varlen,
+            interleaved,
+            conjugate,
+            BLOCK_M,
+        )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_338032.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_338032.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_338032.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_338032.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_338032.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_339628.py b/src/temp/gen/rotary_transform.py_gen_triton_code_339628.py
new file mode 100644
index 0000000..fda87e6
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_339628.py
@@ -0,0 +1,289 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT,  # *float32
+    X,  # *float32
+    COS,  # *float32
+    SIN,  # *float32
+    CU_SEQLENS,  # *int32
+    SEQLEN_OFFSETS,  # *int32
+    seqlen,  # int32
+    rotary_dim,  # int32                 # rotary dimension (must be even)
+    seqlen_ro,  # int32                # rotary sequence length
+    stride_out_batch,  # int64
+    stride_out_seqlen,  # int64
+    stride_out_nheads,  # int64
+    stride_out_headdim,  # int64
+    stride_x_batch,  # int64
+    stride_x_seqlen,  # int64
+    stride_x_nheads,  # int64
+    stride_x_headdim,  # int64
+    BLOCK_K: tl.constexpr,  # rotary dimension (must be even)
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,  # bool
+    IS_VARLEN: tl.constexpr,  # bool
+    INTERLEAVED: tl.constexpr,  # bool
+    CONJUGATE: tl.constexpr,  # bool
+    BLOCK_M: tl.constexpr,  # block size along sequence dimension
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+
+    if not IS_VARLEN:
+        offset_b = pid_batch * stride_x_batch
+        offset_bo = pid_batch * stride_out_batch
+        current_seqlen = seqlen
+    else:
+        seqlen_start = tl.load(CU_SEQLENS + pid_batch)
+        seqlen_end = tl.load(CU_SEQLENS + pid_batch + 1)
+        current_seqlen = seqlen_end - seqlen_start
+        offset_b = seqlen_start * stride_x_seqlen
+        offset_bo = seqlen_start * stride_out_seqlen
+
+    X = X + offset_b + pid_head * stride_x_nheads
+    OUT = OUT + offset_bo + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= current_seqlen:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    mask_m = rm < current_seqlen
+
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        seqlen_offset = tl.load(SEQLEN_OFFSETS + pid_batch)
+    else:
+        seqlen_offset = SEQLEN_OFFSETS
+
+    rk_half = tl.arange(0, BLOCK_K // 2)
+    rk_full = tl.arange(0, BLOCK_K)
+
+    if not INTERLEAVED:
+        # Non-interleaved
+        cos_offset = (rm[:, None] + seqlen_offset) * rotary_dim + rk_half[None, :]
+        cos = tl.load(COS + cos_offset, 
+                     mask=((rm[:, None] + seqlen_offset) < seqlen_ro) & (rk_half[None, :] < rotary_dim//2), 
+                     other=1.0).to(tl.float32)
+        sin = tl.load(SIN + cos_offset, 
+                     mask=((rm[:, None] + seqlen_offset) < seqlen_ro) & (rk_half[None, :] < rotary_dim//2), 
+                     other=0.0).to(tl.float32)
+        
+        if CONJUGATE:
+            sin = -sin
+        
+        x0_offset = rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x0 = tl.load(X + x0_offset, mask=mask_m[:, None] & (rk_half[None, :] < rotary_dim//2), other=0.0).to(tl.float32)
+        x1_offset = rm[:, None] * stride_x_seqlen + (rk_half[None, :] + rotary_dim//2) * stride_x_headdim
+        x1 = tl.load(X + x1_offset, mask=mask_m[:, None] & (rk_half[None, :] < rotary_dim//2), other=0.0).to(tl.float32)
+        
+        y0 = x0 * cos - x1 * sin
+        y1 = x0 * sin + x1 * cos
+
+        tl.store(OUT + x0_offset, y0, mask=mask_m[:, None] & (rk_half[None, :] < rotary_dim//2))
+        tl.store(OUT + x1_offset, y1, mask=mask_m[:, None] & (rk_half[None, :] < rotary_dim//2))
+        
+        # Remaining dimensions
+        if rotary_dim < BLOCK_K:
+            rk_rem = tl.arange(rotary_dim, BLOCK_K)
+            x_rem = tl.load(X + rm[:, None] * stride_x_seqlen + rk_rem[None, :] * stride_x_headdim,
+                           mask=mask_m[:, None] & (rk_rem[None, :] < BLOCK_K), other=0.0)
+            tl.store(OUT + rm[:, None] * stride_out_seqlen + rk_rem[None, :] * stride_out_headdim,
+                    x_rem, mask=mask_m[:, None] & (rk_rem[None, :] < BLOCK_K))
+
+    else:
+        # Interleaved
+        cos_offset = (rm[:, None] + seqlen_offset) * rotary_dim + (rk_full[None, :]//2)
+        cos = tl.load(COS + cos_offset,
+                     mask=((rm[:, None] + seqlen_offset) < seqlen_ro) & (rk_full[None, :] < rotary_dim),
+                     other=1.0).to(tl.float32)
+        sin = tl.load(SIN + cos_offset,
+                     mask=((rm[:, None] + seqlen_offset) < seqlen_ro) & (rk_full[None, :] < rotary_dim),
+                     other=0.0).to(tl.float32)
+
+        x_offset = rm[:, None] * stride_x_seqlen + rk_full[None, :] * stride_x_headdim
+        x = tl.load(X + x_offset, mask=mask_m[:, None] & (rk_full[None, :] < rotary_dim), other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+
+        rk_even = (rk_full[None, :] % 2) == 0
+        y = tl.where(rk_even, x * cos - x * sin.flip(1), x * sin + x * cos.flip(1))
+
+        tl.store(OUT + x_offset, y, mask=mask_m[:, None] & (rk_full[None, :] < rotary_dim))
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    batch, seqlen, nheads, headdim = x.shape
+    seqlen_ro, rotary_dim = cos.shape
+    
+    assert rotary_dim <= headdim
+    assert seqlen_ro >= seqlen
+    assert cos.dtype == sin.dtype == x.dtype
+    assert rotary_dim % 2 == 0
+    
+    if cu_seqlens is not None:
+        assert cu_seqlens.dtype == torch.int32
+    
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.dtype == torch.int32
+        seqlen_offsets = seqlen_offsets.contiguous()
+    
+    x = x.contiguous()
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = triton.next_power_of_2(rotary_dim)
+    
+    if cu_seqlens is None:
+        grid_m = lambda META: (triton.cdiv(seqlen, META['BLOCK_M']), batch, nheads)
+    else:
+        grid_m = lambda META: (triton.cdiv(seqlen, META['BLOCK_M']), cu_seqlens.shape[0]-1, nheads)
+    
+    BLOCK_M = 4 if interleaved else 8
+    
+    rotary_kernel[grid_m](
+        output,
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlen_offsets if isinstance(seqlen_offsets, torch.Tensor) else None,
+        seqlen,
+        rotary_dim,
+        seqlen_ro,
+        output.stride(0),
+        output.stride(1),
+        output.stride(2),
+        output.stride(3),
+        x.stride(0),
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        BLOCK_K=BLOCK_K,
+        IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+        IS_VARLEN=cu_seqlens is not None,
+        INTERLEAVED=interleaved,
+        CONJUGATE=conjugate,
+        BLOCK_M=BLOCK_M,
+    )
+    
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_339628.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_339628.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_339628.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_339628.py.stdout
new file mode 100644
index 0000000..0e677b7
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_339628.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_339628 due to at 60:22:
+
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        seqlen_offset = tl.load(SEQLEN_OFFSETS + pid_batch)
+    else:
+        seqlen_offset = SEQLEN_OFFSETS
+
+    rk_half = tl.arange(0, BLOCK_K // 2)
+    rk_full = tl.arange(0, BLOCK_K)
+
+    if not INTERLEAVED:
+        # Non-interleaved
+        cos_offset = (rm[:, None] + seqlen_offset) * rotary_dim + rk_half[None, :]
+                      ^
+AssertionError("cannot convert None of type <class 'NoneType'> to tensor")
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_344391.py b/src/temp/gen/rotary_transform.py_gen_triton_code_344391.py
new file mode 100644
index 0000000..8230c46
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_344391.py
@@ -0,0 +1,237 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    X, COS, SIN, CU_SEQLENS, SEQLENS, OUT,
+    stride_batch, stride_seqlen, stride_head, stride_dim,
+    rotary_dim, max_seqlen, total_seqlens,
+    nheads, seqlen_ro, interleaved, conj, BLOCK_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if pid_batch >= stride_batch:
+        return
+    if pid_head >= nheads:
+        return
+
+    if CU_SEQLENS is not None:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        seq_end = tl.load(CU_SEQLENS + pid_batch + 1)
+        seqlen_i = seq_end - seq_start
+    else:
+        seq_start = pid_batch * max_seqlen
+        seqlen_i = tl.load(SEQLENS + pid_batch) if SEQLENS is not None else max_seqlen
+
+    if pid_m >= seqlen_i:
+        return
+
+    offset_m = seq_start + pid_m
+
+    rotary_dim_half = rotary_dim // 2
+    BLOCK_K = tl.min(BLOCK_SIZE_M, rotary_dim_half)
+    for k in range(0, rotary_dim_half, BLOCK_K):
+        k_idx = k + tl.arange(0, BLOCK_K)
+        mask = k_idx < rotary_dim_half
+
+        pos_m = pid_m
+        cos_idx = pos_m * rotary_dim + k_idx
+        cos_offset = COS + cos_idx
+        cos_val = tl.load(cos_offset, mask=mask).to(tl.float32)
+
+        sin_idx = pos_m * rotary_dim + k_idx
+        sin_offset = SIN + sin_idx
+        sin_val = tl.load(sin_offset, mask=mask).to(tl.float32)
+        if conj:
+            sin_val = -sin_val
+
+        if interleaved:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + 2 * k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + 2 * k_idx + 1
+            mask_2 = 2 * k_idx + 1 < rotary_dim
+            x0 = tl.load(X + x_idx0, mask=mask_2).to(tl.float32)
+            x1 = tl.load(X + x_idx1, mask=mask_2).to(tl.float32)
+            out0 = x0 * cos_val - x1 * sin_val
+            out1 = x0 * sin_val + x1 * cos_val
+            tl.store(OUT + x_idx0, out0, mask=mask_2)
+            tl.store(OUT + x_idx1, out1, mask=mask_2)
+        else:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + k_idx + rotary_dim_half
+            mask_half = k_idx + rotary_dim_half < rotary_dim
+            x0 = tl.load(X + x_idx0, mask=mask).to(tl.float32)
+            x1 = tl.load(X + x_idx1, mask=mask_half).to(tl.float32)
+            out0 = x0 * cos_val - x1 * sin_val
+            out1 = x0 * sin_val + x1 * cos_val
+            tl.store(OUT + x_idx0, out0, mask=mask)
+            tl.store(OUT + x_idx1, out1, mask=mask_half)
+
+    if IS_EVEN_K:
+        return
+
+    k_offset = rotary_dim
+    total_dim = stride_dim
+    for d in range(rotary_dim, total_dim):
+        idx = offset_m * stride_seqlen + pid_head * stride_head + d
+        val = tl.load(X + idx)
+        tl.store(OUT + idx, val.astype(X.dtype.element_ty))
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seq_offset: int = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    seqlens: Optional[torch.Tensor] = None,
+    rotary_dim: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    batch, seqlen, nheads, headdim = x.shape
+    rotary_dim = rotary_dim or headdim
+
+    assert rotary_dim % 2 == 0, "rotary_dim must be even"
+    assert headdim >= rotary_dim, "headdim must be >= rotary_dim"
+    assert cos.shape == (seqlen, rotary_dim), f"cos shape mismatch: {cos.shape} vs ({seqlen}, {rotary_dim})"
+    assert sin.shape == (seqlen, rotary_dim), f"sin shape mismatch: {sin.shape} vs ({seqlen}, {rotary_dim})"
+
+    if not inplace:
+        out = torch.empty_like(x)
+    else:
+        out = x
+
+    BLOCK_SIZE_M = min(max(triton.next_power_of_2(rotary_dim // 2), 16), 64)
+    grid = lambda META: (batch, nheads, triton.cdiv(seqlen, META["BLOCK_M"]))
+
+    rotary_kernel[grid](
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlens,
+        out,
+        x.stride(0),
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        rotary_dim,
+        seqlen,
+        batch * seqlen,
+        nheads,
+        seqlen,
+        interleaved,
+        conjugate,
+        BLOCK_SIZE_M,
+        IS_EVEN_K=(headdim == rotary_dim),
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_344391.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_344391.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_344391.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_344391.py.stdout
new file mode 100644
index 0000000..1fccb18
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_344391.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_344391 due to cos shape mismatch: torch.Size([128, 16]) vs (128, 64)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_373163.py b/src/temp/gen/rotary_transform.py_gen_triton_code_373163.py
new file mode 100644
index 0000000..6066a2d
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_373163.py
@@ -0,0 +1,343 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    X,
+    COS,
+    SIN,
+    OUT,
+    CU_SEQLENS,
+    SEQLENS,
+    stride_x_batch,
+    stride_x_head,
+    stride_x_m,
+    stride_x_k,
+    stride_c_stride,
+    stride_cos_m,
+    stride_cos_k,
+    stride_sin_m,
+    stride_sin_k,
+    stride_out_batch,
+    stride_out_head,
+    stride_out_m,
+    stride_out_k,
+    n_ctx,
+    HEAD_K: tl.constexpr,
+    IS_VARIABLE_KV: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    BLOCK_H: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1) * BLOCK_H + tl.arange(0, BLOCK_H)
+    pid_m = tl.program_id(2) * BLOCK_M + tl.arange(0, BLOCK_M)
+
+    mask_h = pid_head < HEAD_K
+    mask_m = pid_m < n_ctx
+
+    if IS_VARIABLE_KV:
+        # Handle variable sequence lengths
+        cu_seq = tl.load(CU_SEQLENS + pid_batch)
+        seq_len = tl.load(SEQLENS + pid_batch)
+        offset_m = cu_seq + pid_m
+    else:
+        # Handle fixed sequence length
+        offset_m = pid_batch * n_ctx + pid_m
+        seq_len = n_ctx
+
+    mask_seq = pid_m < seq_len
+
+    if INTERLEAVED:
+        # Interleaved format: real and imag parts are interleaved
+        load_real_idx = 2 * pid_m + 0
+        load_imag_idx = 2 * pid_m + 1
+
+        off_real = (
+            pid_batch * stride_x_batch
+            + pid_head[None, :] * stride_x_head
+            + load_real_idx[:, None] * stride_x_m
+            + tl.arange(0, HEAD_K // 2)[None, :] * stride_x_k
+        )
+        off_imag = (
+            pid_batch * stride_x_batch
+            + pid_head[None, :] * stride_x_head
+            + load_imag_idx[:, None] * stride_x_m
+            + tl.arange(0, HEAD_K // 2)[None, :] * stride_x_k
+        )
+
+        # Load real and imaginary parts
+        x_real = tl.load(X + off_real, mask=mask_m[:, None] & mask_h[None, :], other=0.0)
+        x_imag = tl.load(X + off_imag, mask=mask_m[:, None] & mask_h[None, :], other=0.0)
+
+        # Load COS and SIN
+        off_cos_m = offset_m[:, None] * stride_cos_m
+        off_sin_m = offset_m[:, None] * stride_sin_m
+
+        # Get the right dimension for COS/SIN
+        off_cos_real = (
+            off_cos_m
+            + (2 * tl.arange(0, HEAD_K // 2))[None, :] * stride_cos_k
+        )
+        off_sin_real = (
+            off_sin_m
+            + (2 * tl.arange(0, HEAD_K // 2))[None, :] * stride_sin_k
+        )
+        off_cos_imag = (
+            off_cos_m
+            + (2 * tl.arange(0, HEAD_K // 2) + 1)[None, :] * stride_cos_k
+        )
+        off_sin_imag = (
+            off_sin_m
+            + (2 * tl.arange(0, HEAD_K // 2) + 1)[None, :] * stride_sin_k
+        )
+
+        cos_real = tl.load(COS + off_cos_real, mask=mask_m[:, None], other=1.0)
+        sin_real = tl.load(SIN + off_sin_real, mask=mask_m[:, None], other=0.0)
+        cos_imag = tl.load(COS + off_cos_imag, mask=mask_m[:, None], other=0.0)
+        sin_imag = tl.load(SIN + off_sin_imag, mask=mask_m[:, None], other=0.0)
+
+    else:
+        # Non-interleaved format: first half is real, second half is imag
+        half_k = HEAD_K // 2
+
+        # Offsets for real and imaginary parts
+        off_real = (
+            pid_batch * stride_x_batch
+            + pid_head[None, :] * stride_x_head
+            + pid_m[:, None] * stride_x_m
+            + tl.arange(0, half_k)[None, :] * stride_x_k
+        )
+        off_imag = (
+            pid_batch * stride_x_batch
+            + (half_k + pid_head)[None, :] * stride_x_head
+            + pid_m[:, None] * stride_x_m
+            + tl.arange(0, half_k)[None, :] * stride_x_k
+        )
+
+        # Load real and imaginary parts
+        x_real = tl.load(X + off_real, mask=mask_m[:, None] & (pid_head < half_k)[None, :], other=0.0)
+        x_imag = tl.load(X + off_imag, mask=mask_m[:, None] & (pid_head >= half_k)[None, :], other=0.0)
+
+        # Load COS and SIN for non-interleaved
+        off_cos = (
+            offset_m[:, None] * stride_cos_m
+            + tl.arange(0, half_k)[None, :] * stride_cos_k
+        )
+        off_sin = (
+            offset_m[:, None] * stride_sin_m
+            + tl.arange(0, half_k)[None, :] * stride_sin_k
+        )
+
+        cos = tl.load(COS + off_cos, mask=mask_m[:, None], other=1.0)
+        sin = tl.load(SIN + off_sin, mask=mask_m[:, None], other=0.0)
+
+        cos_real = cos
+        sin_real = sin
+        cos_imag = cos
+        sin_imag = sin
+
+    # Compute rotary transform
+    if CONJUGATE:
+        # With conjugation
+        out_real = x_real * cos_real + x_imag * sin_real
+        out_imag = -x_real * sin_imag + x_imag * cos_imag
+    else:
+        # Without conjugation
+        out_real = x_real * cos_real - x_imag * sin_real
+        out_imag = x_real * sin_imag + x_imag * cos_imag
+
+    # Store results
+    if INTERLEAVED:
+        off_out_real = (
+            pid_batch * stride_out_batch
+            + pid_head[None, :] * stride_out_head
+            + load_real_idx[:, None] * stride_out_m
+            + tl.arange(0, HEAD_K // 2)[None, :] * stride_out_k
+        )
+        off_out_imag = (
+            pid_batch * stride_out_batch
+            + pid_head[None, :] * stride_out_head
+            + load_imag_idx[:, None] * stride_out_m
+            + tl.arange(0, HEAD_K // 2)[None, :] * stride_out_k
+        )
+        tl.store(OUT + off_out_real, out_real, mask=mask_m[:, None] & mask_h[None, :])
+        tl.store(OUT + off_out_imag, out_imag, mask=mask_m[:, None] & mask_h[None, :])
+    else:
+        off_out_real = (
+            pid_batch * stride_out_batch
+            + pid_head[None, :] * stride_out_head
+            + pid_m[:, None] * stride_out_m
+            + tl.arange(0, half_k)[None, :] * stride_out_k
+        )
+        off_out_imag = (
+            pid_batch * stride_out_batch
+            + (half_k + pid_head)[None, :] * stride_out_head
+            + pid_m[:, None] * stride_out_m
+            + tl.arange(0, half_k)[None, :] * stride_out_k
+        )
+        tl.store(OUT + off_out_real, out_real, mask=mask_m[:, None] & (pid_head < half_k)[None, :])
+        tl.store(OUT + off_out_imag, out_imag, mask=mask_m[:, None] & (pid_head >= half_k)[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offset: int = 0,
+    cu_seqlens: torch.Tensor = None,
+    seqlens: torch.Tensor = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    # Determine output tensor
+    out = x if inplace else torch.empty_like(x)
+
+    # Get dimensions
+    batch, head, n_ctx, head_k = x.shape
+
+    # Determine if variable sequence lengths are used
+    is_variable_kv = cu_seqlens is not None and seqlens is not None
+
+    # Building the grid
+    BLOCK_H = 64
+    BLOCK_M = 32
+    grid = (batch, triton.cdiv(head, BLOCK_H), triton.cdiv(n_ctx, BLOCK_M))
+
+    # Launch the kernel
+    rotary_kernel[grid](
+        x,
+        cos,
+        sin,
+        out,
+        cu_seqlens,
+        seqlens,
+        x.stride(0),
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        1 if is_variable_kv else 0,
+        cos.stride(0),
+        cos.stride(1),
+        sin.stride(0),
+        sin.stride(1),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        out.stride(3),
+        n_ctx,
+        HEAD_K=head_k,
+        IS_VARIABLE_KV=is_variable_kv,
+        CONJUGATE=conjugate,
+        INTERLEAVED=interleaved,
+        BLOCK_H=BLOCK_H,
+        BLOCK_M=BLOCK_M,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_373163.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_373163.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_373163.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_373163.py.stdout
new file mode 100644
index 0000000..ae32b4a
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_373163.py.stdout
@@ -0,0 +1,14 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_373163 due to at 106:14:
+        sin_imag = tl.load(SIN + off_sin_imag, mask=mask_m[:, None], other=0.0)
+
+    else:
+        # Non-interleaved format: first half is real, second half is imag
+        half_k = HEAD_K // 2
+
+        # Offsets for real and imaginary parts
+        off_real = (
+            pid_batch * stride_x_batch
+            + pid_head[None, :] * stride_x_head
+            + pid_m[:, None] * stride_x_m
+            + tl.arange(0, half_k)[None, :] * stride_x_k
+              ^
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_385268.py b/src/temp/gen/rotary_transform.py_gen_triton_code_385268.py
new file mode 100644
index 0000000..a4a52e9
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_385268.py
@@ -0,0 +1,272 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    stride_cos_seqlen,
+    stride_cos_dim,
+    stride_sin_seqlen,
+    stride_sin_dim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    ROTARY_DIM_HALF: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+    if not IS_VARLEN:
+        cur_seqlen = seqlen
+        x_ptr = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        cur_seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - seq_start
+        x_ptr = X + seq_start * stride_x_seqlen + pid_head * stride_x_nheads
+        out_ptr = OUT + seq_start * stride_out_seqlen + pid_head * stride_out_nheads
+    if pid_m * BLOCK_M >= cur_seqlen:
+        return
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rk_half = tl.arange(0, BLOCK_K // 2)
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        offset = tl.load(SEQLEN_OFFSETS + pid_batch)
+    else:
+        offset = SEQLEN_OFFSETS
+    rm_cs = rm + offset
+    rm_cs = tl.where(rm_cs < seqlen_ro, rm_cs, seqlen_ro - 1)
+    if not INTERLEAVED:
+        x0_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x1_ptr = x_ptr + rm[:, None] * stride_x_seqlen + (rk_half + ROTARY_DIM_HALF)[None, :] * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * stride_cos_seqlen + rk_half[None, :] * stride_cos_dim
+        sin_ptr = SIN + rm_cs[:, None] * stride_sin_seqlen + rk_half[None, :] * stride_sin_dim
+        mask_m = rm[:, None] < cur_seqlen
+        mask_k_half = rk_half[None, :] < ROTARY_DIM_HALF
+        cos = tl.load(cos_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half, other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=mask_m & mask_k_half, other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_m & mask_k_half, other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 o0, mask=mask_m & mask_k_half)
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + (rk_half + ROTARY_DIM_HALF)[None, :] * stride_out_headdim,
+                 o1, mask=mask_m & mask_k_half)
+    else:
+        rk_even = 2 * tl.arange(0, ROTARY_DIM_HALF)
+        rk_odd = 2 * tl.arange(0, ROTARY_DIM_HALF) + 1
+        x0_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_even[None, :] * stride_x_headdim
+        x1_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_odd[None, :] * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * stride_cos_seqlen + tl.arange(0, ROTARY_DIM_HALF)[None, :] * stride_cos_dim
+        sin_ptr = SIN + rm_cs[:, None] * stride_sin_seqlen + tl.arange(0, ROTARY_DIM_HALF)[None, :] * stride_sin_dim
+        mask_m = rm[:, None] < cur_seqlen
+        mask_half = tl.arange(0, ROTARY_DIM_HALF)[None, :] < ROTARY_DIM_HALF
+        cos = tl.load(cos_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_half, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_half, other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=mask_m & mask_half, other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_m & mask_half, other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_even[None, :] * stride_out_headdim,
+                 o0, mask=mask_m & mask_half)
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_odd[None, :] * stride_out_headdim,
+                 o1, mask=mask_m & mask_half)
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    """Apply rotary embedding to the input tensor x using Triton kernels optimized for AMD GPU ROCm."""
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        if max_seqlen is None:
+            raise ValueError("max_seqlen must be provided if cu_seqlens is used")
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim
+    assert headdim <= 256
+    assert seqlen_ro >= seqlen
+    assert cos.dtype == sin.dtype == x.dtype
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in [torch.int32, torch.int64]
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert seqlen_offsets + seqlen <= seqlen_ro
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = (
+        32 if rotary_dim <= 32 else
+        64 if rotary_dim <= 64 else
+        128 if rotary_dim <= 128 else 256
+    )
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    with torch.cuda.device(x.device.index):
+        rotary_kernel[grid](
+            output, x, cos, sin, cu_seqlens, seqlen_offsets,
+            seqlen, nheads, rotary_dim, seqlen_ro,
+            0,
+            output.stride(0) if not is_varlen else 0,
+            output.stride(-3), output.stride(-2), output.stride(-1),
+            x.stride(0) if not is_varlen else 0,
+            x.stride(-3), x.stride(-2), x.stride(-1),
+            cos.stride(0), cos.stride(1),
+            sin.stride(0), sin.stride(1),
+            BLOCK_K=BLOCK_K,
+            IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+            IS_VARLEN=is_varlen,
+            INTERLEAVED=interleaved,
+            CONJUGATE=conjugate,
+            BLOCK_M=BLOCK_M,
+            ROTARY_DIM_HALF=rotary_dim_half
+        )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_385268.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_385268.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_385268.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_385268.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_385268.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_405620.py b/src/temp/gen/rotary_transform.py_gen_triton_code_405620.py
new file mode 100644
index 0000000..ea52312
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_405620.py
@@ -0,0 +1,275 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    OUT,
+    stride_xb,
+    stride_xh,
+    stride_xn,
+    stride_xd,
+    stride_cosn,
+    stride_cosd,
+    stride_sinn,
+    stride_sind,
+    stride_cu_off,
+    stride_ob,
+    stride_oh,
+    stride_on,
+    stride_od,
+    nheads,
+    seqlen,
+    rotary_dim,
+    interleaved,
+    conjugate,
+    BLOCK_K: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    IS_EVEN_N: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+    rot_dim_half = rotary_dim // 2
+
+    if CU_SEQLENS is None:
+        seq_start = 0
+        seq_id = pid_batch
+    else:
+        seq_start = 0
+        if pid_batch > 0:
+            seq_start = tl.load(CU_SEQLENS + pid_batch - 1)
+        seq_end = tl.load(CU_SEQLENS + pid_batch)
+        seq_id = seq_start + pid_m
+        if seq_id >= seq_end:
+            return
+
+    offset_b = seq_id * stride_xb
+    offset_h = pid_head * stride_xh
+    offset_n = pid_m * stride_xn
+    offset_d = tl.arange(0, BLOCK_K)
+    offset_k = tl.arange(0, BLOCK_N)
+
+    # Compute input pointer base for this element
+    x_base = X + offset_b + offset_h + offset_n
+    # Load input values for rotary dimensions
+    if IS_EVEN_K:
+        x_rot = tl.load(x_base + offset_d, mask=offset_d < rotary_dim)
+    else:
+        mask_d = offset_d < rotary_dim
+        x_rot = tl.load(x_base + offset_d, mask=mask_d)
+
+    # Compute cosine/sine pointers
+    cos_base = COS + seq_id * stride_cosn
+    sin_base = SIN + seq_id * stride_sinn
+
+    # Load cosine and sine values
+    if IS_EVEN_K:
+        cos = tl.load(cos_base + offset_d, mask=offset_d < rotary_dim)
+        sin = tl.load(sin_base + offset_d, mask=offset_d < rotary_dim)
+    else:
+        mask_d = offset_d < rotary_dim
+        cos = tl.load(cos_base + offset_d, mask=mask_d)
+        sin = tl.load(sin_base + offset_d, mask=mask_d)
+
+    # Split into two halves
+    x0 = x_rot[:rot_dim_half] if rotary_dim <= BLOCK_K else x_rot[0:rot_dim_half:2] if interleaved else x_rot[:rot_dim_half]
+    x1 = x_rot[rot_dim_half:] if rotary_dim <= BLOCK_K else x_rot[1:rot_dim_half*2:2] if interleaved else x_rot[rot_dim_half:]
+
+    # Gather corresponding cos/sin for each half
+    cos0 = cos[:rot_dim_half] if rotary_dim <= BLOCK_K else cos[0:rot_dim_half:2] if interleaved else cos[:rot_dim_half]
+    cos1 = cos[rot_dim_half:] if rotary_dim <= BLOCK_K else cos[1:rot_dim_half*2:2] if interleaved else cos[rot_dim_half:]
+    sin0 = sin[:rot_dim_half] if rotary_dim <= BLOCK_K else sin[0:rot_dim_half:2] if interleaved else sin[:rot_dim_half]
+    sin1 = sin[rot_dim_half:] if rotary_dim <= BLOCK_K else sin[1:rot_dim_half*2:2] if interleaved else sin[rot_dim_half:]
+
+    if conjugate:
+        sin0 = -sin0
+        sin1 = -sin1
+
+    # Apply rotary transform
+    y0 = x0 * cos - x1 * sin
+    y1 = x0 * sin + x1 * cos
+
+    # Prepare output pointers
+    out_base = OUT + offset_b + offset_h + offset_n
+
+    # Store rotary section
+    if interleaved:
+        rot_indices = tl.arange(0, rotary_dim)
+        # Handle interleaved storage pattern
+        if rotary_dim <= BLOCK_K:
+            tl.store(out_base + rot_indices[0::2], y0, mask=rot_indices[0::2] < rotary_dim)
+            tl.store(out_base + rot_indices[1::2], y1, mask=rot_indices[1::2] < rotary_dim)
+        else:
+            tl.store(out_base + rot_indices[0::2], y0, mask=rot_indices[0::2] < rotary_dim)
+            tl.store(out_base + rot_indices[1::2], y1, mask=rot_indices[1::2] < rotary_dim)
+    else:
+        if rotary_dim <= BLOCK_K:
+            tl.store(out_base + offset_d[:rot_dim_half], y0, mask=offset_d[:rot_dim_half] < rotary_dim)
+            tl.store(out_base + offset_d[rot_dim_half:], y1, mask=offset_d[rot_dim_half:] < rotary_dim)
+        else:
+            tl.store(out_base + offset_d[:rot_dim_half], y0, mask=offset_d[:rot_dim_half] < rotary_dim)
+            tl.store(out_base + offset_d[rot_dim_half:], y1, mask=offset_d[rot_dim_half:] < rotary_dim)
+
+    # Copy non-rotary dimensions
+    if rotary_dim < BLOCK_K:
+        if IS_EVEN_K:
+            x_non_rot = tl.load(x_base + offset_d + rotary_dim, mask=offset_d + rotary_dim < BLOCK_K)
+            tl.store(out_base + offset_d + rotary_dim, x_non_rot, mask=offset_d + rotary_dim < BLOCK_K)
+        else:
+            mask_rest = (offset_d + rotary_dim) < BLOCK_K
+            x_non_rot = tl.load(x_base + offset_d + rotary_dim, mask=mask_rest)
+            tl.store(out_base + offset_d + rotary_dim, x_non_rot, mask=mask_rest)
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: int = 0,
+    cu_seqlens: torch.Tensor = None,
+    max_seqlen: int = None,
+) -> torch.Tensor:
+    rotary_dim = cos.shape[-1]
+    assert rotary_dim % 2 == 0
+    assert cos.shape == sin.shape
+
+    batch, seqlen = x.shape[0], x.shape[2]
+    nheads = x.shape[1]
+    
+    if max_seqlen is None:
+        max_seqlen = seqlen
+    
+    # Determine block parameters
+    BLOCK_K = triton.next_power_of_2(rotary_dim)
+    BLOCK_N = triton.next_power_of_2(max_seqlen)
+    
+    # Grid dimensions
+    grid = lambda META: (batch, nheads, triton.cdiv(max_seqlen, META['BLOCK_N']))
+    
+    # Prepare output tensor
+    out = torch.empty_like(x)
+    
+    rotary_kernel[grid](
+        x, cos, sin, cu_seqlens, out,
+        x.stride(0), x.stride(1), x.stride(2), x.stride(3),
+        cos.stride(0), cos.stride(1),
+        sin.stride(0), sin.stride(1),
+        cu_seqlens.stride(0) if cu_seqlens is not None else 0,
+        out.stride(0), out.stride(1), out.stride(2), out.stride(3),
+        nheads, seqlen, rotary_dim, False, False,
+        BLOCK_K=BLOCK_K,
+        BLOCK_N=min(BLOCK_N, 128),
+        IS_EVEN_N=x.shape[2] % min(BLOCK_N, 128) == 0,
+        IS_EVEN_K=rotary_dim % BLOCK_K == 0,
+    )
+    
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_405620.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_405620.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_405620.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_405620.py.stdout
new file mode 100644
index 0000000..1f4d5d9
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_405620.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_405620 due to at 76:9:
+
+    # Load cosine and sine values
+    if IS_EVEN_K:
+        cos = tl.load(cos_base + offset_d, mask=offset_d < rotary_dim)
+        sin = tl.load(sin_base + offset_d, mask=offset_d < rotary_dim)
+    else:
+        mask_d = offset_d < rotary_dim
+        cos = tl.load(cos_base + offset_d, mask=mask_d)
+        sin = tl.load(sin_base + offset_d, mask=mask_d)
+
+    # Split into two halves
+    x0 = x_rot[:rot_dim_half] if rotary_dim <= BLOCK_K else x_rot[0:rot_dim_half:2] if interleaved else x_rot[:rot_dim_half]
+         ^
+ValueError('unsupported tensor index: slice(None, <triton.language.core.tensor object at 0x741956810ce0>, None)')
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_431864.py b/src/temp/gen/rotary_transform.py_gen_triton_code_431864.py
new file mode 100644
index 0000000..8230c46
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_431864.py
@@ -0,0 +1,237 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    X, COS, SIN, CU_SEQLENS, SEQLENS, OUT,
+    stride_batch, stride_seqlen, stride_head, stride_dim,
+    rotary_dim, max_seqlen, total_seqlens,
+    nheads, seqlen_ro, interleaved, conj, BLOCK_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if pid_batch >= stride_batch:
+        return
+    if pid_head >= nheads:
+        return
+
+    if CU_SEQLENS is not None:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        seq_end = tl.load(CU_SEQLENS + pid_batch + 1)
+        seqlen_i = seq_end - seq_start
+    else:
+        seq_start = pid_batch * max_seqlen
+        seqlen_i = tl.load(SEQLENS + pid_batch) if SEQLENS is not None else max_seqlen
+
+    if pid_m >= seqlen_i:
+        return
+
+    offset_m = seq_start + pid_m
+
+    rotary_dim_half = rotary_dim // 2
+    BLOCK_K = tl.min(BLOCK_SIZE_M, rotary_dim_half)
+    for k in range(0, rotary_dim_half, BLOCK_K):
+        k_idx = k + tl.arange(0, BLOCK_K)
+        mask = k_idx < rotary_dim_half
+
+        pos_m = pid_m
+        cos_idx = pos_m * rotary_dim + k_idx
+        cos_offset = COS + cos_idx
+        cos_val = tl.load(cos_offset, mask=mask).to(tl.float32)
+
+        sin_idx = pos_m * rotary_dim + k_idx
+        sin_offset = SIN + sin_idx
+        sin_val = tl.load(sin_offset, mask=mask).to(tl.float32)
+        if conj:
+            sin_val = -sin_val
+
+        if interleaved:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + 2 * k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + 2 * k_idx + 1
+            mask_2 = 2 * k_idx + 1 < rotary_dim
+            x0 = tl.load(X + x_idx0, mask=mask_2).to(tl.float32)
+            x1 = tl.load(X + x_idx1, mask=mask_2).to(tl.float32)
+            out0 = x0 * cos_val - x1 * sin_val
+            out1 = x0 * sin_val + x1 * cos_val
+            tl.store(OUT + x_idx0, out0, mask=mask_2)
+            tl.store(OUT + x_idx1, out1, mask=mask_2)
+        else:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + k_idx + rotary_dim_half
+            mask_half = k_idx + rotary_dim_half < rotary_dim
+            x0 = tl.load(X + x_idx0, mask=mask).to(tl.float32)
+            x1 = tl.load(X + x_idx1, mask=mask_half).to(tl.float32)
+            out0 = x0 * cos_val - x1 * sin_val
+            out1 = x0 * sin_val + x1 * cos_val
+            tl.store(OUT + x_idx0, out0, mask=mask)
+            tl.store(OUT + x_idx1, out1, mask=mask_half)
+
+    if IS_EVEN_K:
+        return
+
+    k_offset = rotary_dim
+    total_dim = stride_dim
+    for d in range(rotary_dim, total_dim):
+        idx = offset_m * stride_seqlen + pid_head * stride_head + d
+        val = tl.load(X + idx)
+        tl.store(OUT + idx, val.astype(X.dtype.element_ty))
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seq_offset: int = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    seqlens: Optional[torch.Tensor] = None,
+    rotary_dim: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    batch, seqlen, nheads, headdim = x.shape
+    rotary_dim = rotary_dim or headdim
+
+    assert rotary_dim % 2 == 0, "rotary_dim must be even"
+    assert headdim >= rotary_dim, "headdim must be >= rotary_dim"
+    assert cos.shape == (seqlen, rotary_dim), f"cos shape mismatch: {cos.shape} vs ({seqlen}, {rotary_dim})"
+    assert sin.shape == (seqlen, rotary_dim), f"sin shape mismatch: {sin.shape} vs ({seqlen}, {rotary_dim})"
+
+    if not inplace:
+        out = torch.empty_like(x)
+    else:
+        out = x
+
+    BLOCK_SIZE_M = min(max(triton.next_power_of_2(rotary_dim // 2), 16), 64)
+    grid = lambda META: (batch, nheads, triton.cdiv(seqlen, META["BLOCK_M"]))
+
+    rotary_kernel[grid](
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlens,
+        out,
+        x.stride(0),
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        rotary_dim,
+        seqlen,
+        batch * seqlen,
+        nheads,
+        seqlen,
+        interleaved,
+        conjugate,
+        BLOCK_SIZE_M,
+        IS_EVEN_K=(headdim == rotary_dim),
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_431864.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_431864.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_431864.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_431864.py.stdout
new file mode 100644
index 0000000..f074403
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_431864.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_431864 due to cos shape mismatch: torch.Size([128, 16]) vs (128, 64)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_44150.py b/src/temp/gen/rotary_transform.py_gen_triton_code_44150.py
new file mode 100644
index 0000000..ff2ed16
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_44150.py
@@ -0,0 +1,265 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    OUT, X, COS, SIN, CU_SEQLENS, SEQLENS_OFFSETS, 
+    stride_out_batch, stride_out_head, stride_out_m, stride_out_k,
+    stride_x_batch, stride_x_head, stride_x_m, stride_x_k,
+    stride_cos_batch, stride_cos_m, stride_cos_k,
+    stride_sin_batch, stride_sin_m, stride_sin_k,
+    rotary_dim, rotary_half, conjugate,
+    HEADS: tl.constexpr, SEQLEN: tl.constexpr, DIM: tl.constexpr,
+    IS_VARIABLE: tl.constexpr, INTERLEAVED: tl.constexpr, BLOCK_M: tl.constexpr, BLOCK_K: tl.constexpr
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if pid_batch >= stride_out_batch:
+        return
+
+    seqlen_offset = 0
+    if IS_VARIABLE:
+        seqlen_offset = tl.load(SEQLENS_OFFSETS + pid_batch)
+        seq_len = tl.load(CU_SEQLENS + pid_batch + 1) - tl.load(CU_SEQLENS + pid_batch)
+        if pid_m >= seq_len:
+            return
+    else:
+        if SEQLEN is not None and pid_m >= SEQLEN:
+            return
+        seqlen_offset = tl.load(SEQLENS_OFFSETS + pid_batch) if SEQLENS_OFFSETS else 0
+
+    rotary_dim = rotary_dim
+    k = tl.arange(0, BLOCK_K)
+
+    # Compute offsets for X
+    if INTERLEAVED:
+        offs_x = (
+            pid_batch * stride_x_batch
+            + pid_head * stride_x_head
+            + pid_m * stride_x_m
+            + (k * 2) * stride_x_k
+        )
+    else:
+        offs_x = (
+            pid_batch * stride_x_batch
+            + pid_head * stride_x_head
+            + pid_m * stride_x_m
+            + k * stride_x_k
+        )
+
+    # Compute offsets for COS/SIN
+    offs_cos_sin = pid_m * stride_cos_m + k * stride_cos_k
+
+    # Load COS/SIN
+    cos = tl.load(COS + offs_cos_sin, mask=k < rotary_dim, other=1.0)
+    sin = tl.load(SIN + offs_cos_sin, mask=k < rotary_dim, other=0.0)
+
+    # Process rotary pairs
+    for i in range(0, tl.cdiv(rotary_dim, 2), BLOCK_K // 2):
+        # Calculate indices for current pair
+        if INTERLEAVED:
+            idx = i * 2
+            k0 = idx
+            k1 = idx + 1
+        else:
+            idx = i
+            k0 = idx
+            k1 = idx + rotary_half
+
+        # Load x0, x1
+        x0 = tl.load(X + offs_x + k0 * stride_x_k, mask=k0 < rotary_dim, other=0.0)
+        x1 = tl.load(X + offs_x + k1 * stride_x_k, mask=k1 < rotary_dim, other=0.0)
+
+        # Apply rotation
+        if conjugate:
+            out0 = x0 * cos - x1 * sin
+            out1 = x0 * sin + x1 * cos
+        else:
+            out0 = x0 * cos + x1 * sin
+            out1 = -x0 * sin + x1 * cos
+
+        # Store results
+        tl.store(OUT + offs_x + k0 * stride_x_k, out0, mask=k0 < rotary_dim)
+        tl.store(OUT + offs_x + k1 * stride_x_k, out1, mask=k1 < rotary_dim)
+
+    # Handle non-rotary dimensions (copy original values)
+    if rotary_dim < DIM:
+        for i in range(rotary_dim, DIM, BLOCK_K):
+            offs_non_rot = (
+                pid_batch * stride_x_batch
+                + pid_head * stride_x_head
+                + pid_m * stride_x_m
+                + i * stride_x_k
+            )
+            val = tl.load(X + offs_non_rot)
+            tl.store(OUT + offs_non_rot, val)
+
+
+def apply_rotary(
+    x: torch.Tensor, cos: torch.Tensor, sin: torch.Tensor, seqlen_offsets: torch.Tensor = None,
+    cu_seqlens: torch.Tensor = None, max_seqlen: int = None, interleaved: bool = False,
+    in_place: bool = False, conjugate: bool = False
+) -> torch.Tensor:
+    dims = x.dim()
+    assert dims in [3, 4], "Input tensor must be 3D (B, T, D) or 4D (B, H, T, D)"
+    
+    if dims == 3:  # Treat as (B, T, D)
+        batch, seqlen, dim = x.shape
+        heads = 1
+        x = x.view(batch, heads, seqlen, dim)
+    else:  # dims == 4: (B, H, T, D)
+        batch, heads, seqlen, dim = x.shape
+    
+    rotary_dim = cos.shape[-1]
+    rotary_half = rotary_dim // 2
+    
+    assert rotary_dim <= dim, "Rotary dimension must be <= feature dimension"
+    assert cos.shape == sin.shape, "COS and SIN must have same shape"
+    assert cos.shape[-1] == rotary_dim, "Last dimension of COS/SIN must match rotary_dim"
+
+    # Prepare output tensor
+    if in_place:
+        out = x
+    else:
+        out = torch.empty_like(x)
+
+    # Handle max_seqlen for grid dimension
+    actual_max_seqlen = max_seqlen if max_seqlen is not None else seqlen
+    
+    # Prepare sequence offsets
+    if seqlen_offsets is None:
+        seqlen_offsets = torch.zeros(batch, dtype=torch.int64, device=x.device)
+    
+    # Determine IS_VARIABLE flag
+    IS_VARIABLE = cu_seqlens is not None
+    
+    # Grid configuration
+    grid = lambda META: (
+        batch,
+        heads,
+        triton.cdiv(actual_max_seqlen, META["BLOCK_M"])
+    )
+    
+    # Configure block sizes (tune these parameters)
+    BLOCK_M = min(64, actual_max_seqlen)
+    BLOCK_K = min(64, rotary_dim)
+    
+    rotary_kernel[grid](
+        out, x, cos, sin, cu_seqlens, seqlen_offsets,
+        out.stride(0), out.stride(1), out.stride(2), out.stride(3),
+        x.stride(0), x.stride(1), x.stride(2), x.stride(3),
+        cos.stride(0) if cos.dim() > 1 else 0, cos.stride(-2) if cos.dim() > 1 else 0, cos.stride(-1),
+        sin.stride(0) if sin.dim() > 1 else 0, sin.stride(-2) if sin.dim() > 1 else 0, sin.stride(-1),
+        rotary_dim, rotary_half, conjugate,
+        HEADS=heads, SEQLEN=seqlen, DIM=dim,
+        IS_VARIABLE=IS_VARIABLE, INTERLEAVED=interleaved,
+        BLOCK_M=BLOCK_M, BLOCK_K=BLOCK_K
+    )
+    
+    return out.view(batch, seqlen, dim) if dims == 3 else out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_44150.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_44150.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_44150.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_44150.py.stdout
new file mode 100644
index 0000000..23f5e26
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_44150.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_44150 due to at 27:24:
+        return
+
+    seqlen_offset = 0
+    if IS_VARIABLE:
+        seqlen_offset = tl.load(SEQLENS_OFFSETS + pid_batch)
+        seq_len = tl.load(CU_SEQLENS + pid_batch + 1) - tl.load(CU_SEQLENS + pid_batch)
+        if pid_m >= seq_len:
+            return
+    else:
+        if SEQLEN is not None and pid_m >= SEQLEN:
+            return
+        seqlen_offset = tl.load(SEQLENS_OFFSETS + pid_batch) if SEQLENS_OFFSETS else 0
+                        ^
+AssertionError('ternary expression with dynamic condition has inconsistent types int64 and int32')
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_450091.py b/src/temp/gen/rotary_transform.py_gen_triton_code_450091.py
new file mode 100644
index 0000000..ba8ab02
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_450091.py
@@ -0,0 +1,307 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT,        # *float16/bfloat16/float32
+    X,          # *float16/bfloat16/float32
+    COS,        # *float16/bfloat16/float32
+    SIN,        # *float16/bfloat16/float32
+    CU_SEQLENS, # *int32
+    SEQLEN_OFFSETS,    # *int32 when IS_SEQLEN_OFFSETS_TENSOR==True, otherwise scalar int
+    seqlen,            # int32
+    nheads,            # int32
+    rotary_dim,        # int32
+    seqlen_ro,         # int32
+    CACHE_KEY_SEQLEN,  # int32 (unused in kernel; kept for signature match)
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    BLOCK_K    : tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR : tl.constexpr,
+    IS_VARLEN  : tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE  : tl.constexpr,
+    BLOCK_M    : tl.constexpr,
+):
+    pid_m    = tl.program_id(axis=0)
+    pid_batch= tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+
+    # Determine batch / seqlen per sample
+    if IS_VARLEN == 0:
+        # fixed-seqlen; X, OUT already point at or part of contiguous
+        offset_b  = pid_batch * stride_x_batch
+        offset_bo = pid_batch * stride_out_batch
+        current_seqlen = seqlen
+    else:
+        seqlen_start = tl.load(CU_SEQLENS + pid_batch).to(tl.int32)
+        seqlen_end   = tl.load(CU_SEQLENS + pid_batch + 1).to(tl.int32)
+        current_seqlen = seqlen_end - seqlen_start
+        offset_b  = seqlen_start * stride_x_seqlen
+        offset_bo = seqlen_start * stride_out_seqlen
+
+    # Compute linears
+    X   += offset_b  + pid_head * stride_x_nheads
+    OUT += offset_bo + pid_head * stride_out_nheads
+
+    # Return early for empty/tail blocks
+    if pid_m * BLOCK_M >= current_seqlen:
+        return
+
+    # Row indices and validity mask
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    mask_m = rm < current_seqlen
+
+    # sequence length offset
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        seq_offset = tl.load(SEQLEN_OFFSETS + pid_batch).to(tl.int32)
+    else:
+        seq_offset = SEQLEN_OFFSETS  # scalar integer captured at launch & constant in kernel
+
+    # half-size dimension indices
+    rotary_dim_half = rotary_dim // 2
+    rk_half = tl.arange(0, rotary_dim_half)
+    mask_half = rk_half < rotary_dim_half
+
+    if INTERLEAVED == 0:
+        # Non-interleaved layout  -------------------------------------------------
+        base_pos = (rm[:, None] + seq_offset) * rotary_dim + rk_half[None, :]
+        cos_mask = ((rm[:, None] + seq_offset) < seqlen_ro) & mask_half[None, :]
+        sin_mask = cos_mask
+
+        cos = tl.load(COS + base_pos, mask=cos_mask, other=1.0).to(tl.float32)
+        sin = tl.load(SIN + base_pos, mask=sin_mask, other=0.0).to(tl.float32)
+
+        x0_ptr = X   + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x1_ptr = X   + rm[:, None] * stride_x_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_x_headdim
+        x0 = tl.load(x0_ptr, mask=mask_m[:, None] & mask_half[None, :], other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_m[:, None] & mask_half[None, :], other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+
+        y0 = x0 * cos - x1 * sin
+        y1 = x0 * sin + x1 * cos
+
+        tl.store(OUT + x0_ptr - X + OUT, y0,
+                 mask=mask_m[:, None] & mask_half[None, :])
+        tl.store(OUT + x1_ptr - X + OUT, y1,
+                 mask=mask_m[:, None] & mask_half[None, :])
+
+        # remainder pass-through
+        if rotary_dim < stride_x_headdim * stride_x_headdim or True:
+            rk_rem = tl.arange(rotary_dim, stride_x_headdim)
+            out_off = OUT + rm[:, None] * stride_out_seqlen + rk_rem[None, :] * stride_out_headdim
+            x_off   = X   + rm[:, None] * stride_x_seqlen + rk_rem[None, :] * stride_x_headdim
+            mask_rem = (rk_rem[None, :] < stride_x_headdim) & mask_m[:, None]
+            val_rem = tl.load(x_off, mask=mask_rem, other=0.0)
+            tl.store(out_off, val_rem, mask=mask_rem)
+
+    else:
+        # Interleaved layout  ----------------------------------------------------
+        full_dim = rotary_dim
+        rk = tl.arange(0, full_dim)
+        mask_k = rk < full_dim
+        rk_half_idx = rk // 2
+
+        base_pos = (rm[:, None] + seq_offset) * full_dim + rk_half_idx[None, :]
+        mask_pos = ((rm[:, None] + seq_offset) < seqlen_ro) & mask_k[None, :]
+
+        cos_val = tl.load(COS + base_pos, mask=mask_pos, other=1.0).to(tl.float32)
+        sin_val = tl.load(SIN + base_pos, mask=mask_pos, other=0.0).to(tl.float32)
+
+        x_off = X + rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim
+        x_val = tl.load(x_off, mask=mask_m[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin_val = -sin_val
+
+        # flip sin when odd indices
+        sin_flipped = tl.where((rk[None, :] % 2) == 0, sin_val, -sin_val)
+        out_val = x_val * cos_val + sin_flipped * x_val.roll(-1, axis=1)
+
+        tl.store(OUT + rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim,
+                 out_val, mask=mask_m[:, None] & mask_k[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    """Top-level wrapper for RoPE Triton kernel (AMD ROCm)."""
+    if cu_seqlens is None:
+        batch, seqlen, nheads, headdim = x.shape
+        total_seqlen = batch * seqlen
+        stride_batch = x.stride(0)
+    else:
+        assert max_seqlen is not None
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.numel() - 1
+        seqlen = max_seqlen
+        stride_batch = 0  # unused in varlen mode
+
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim
+    assert seqlen_ro >= seqlen
+    assert cos.dtype == sin.dtype == x.dtype
+    assert rotary_dim % 2 == 0
+
+    x = x.contiguous()
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.dtype == torch.int32
+        seqlen_offsets = seqlen_offsets.contiguous()
+    if cu_seqlens is not None:
+        cu_seqlens = cu_seqlens.to(torch.int32).contiguous()
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = triton.next_power_of_2(rotary_dim)
+
+    grid_m = lambda META: (triton.cdiv(seqlen, META['BLOCK_M']), batch, nheads)
+    BLOCK_M = 4 if interleaved else 8
+
+    rotary_kernel[grid_m](
+        output,
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlen_offsets,
+        seqlen,
+        nheads,
+        rotary_dim,
+        seqlen_ro,
+        0,          # CACHE_KEY_SEQLEN (placeholder, unused)
+        *output.stride(),
+        *x.stride(),
+        BLOCK_K,
+        isinstance(seqlen_offsets, torch.Tensor),
+        cu_seqlens is not None,
+        interleaved,
+        conjugate,
+        BLOCK_M,
+    )
+
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_450091.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_450091.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_450091.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_450091.py.stdout
new file mode 100644
index 0000000..e932c5b
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_450091.py.stdout
@@ -0,0 +1,14 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_450091 due to at 65:14:
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    mask_m = rm < current_seqlen
+
+    # sequence length offset
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        seq_offset = tl.load(SEQLEN_OFFSETS + pid_batch).to(tl.int32)
+    else:
+        seq_offset = SEQLEN_OFFSETS  # scalar integer captured at launch & constant in kernel
+
+    # half-size dimension indices
+    rotary_dim_half = rotary_dim // 2
+    rk_half = tl.arange(0, rotary_dim_half)
+              ^
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_460195.py b/src/temp/gen/rotary_transform.py_gen_triton_code_460195.py
new file mode 100644
index 0000000..6c6ce1e
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_460195.py
@@ -0,0 +1,294 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT,  # Pointers to matrices
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,  # this could be int or a pointer
+    # Matrix dimensions
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    # strides
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    stride_cos_seqlen,
+    stride_cos_dim,
+    stride_sin_seqlen,
+    stride_sin_dim,
+    # Meta-parameters
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+
+    rotary_dim_half = rotary_dim // 2
+
+    if not IS_VARLEN:
+        cur_seqlen = seqlen
+        x_ptr = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        cur_seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - seq_start
+        x_ptr = X + seq_start * stride_x_seqlen + pid_head * stride_x_nheads
+        out_ptr = OUT + seq_start * stride_out_seqlen + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= cur_seqlen:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rk_half = tl.arange(0, BLOCK_K // 2)
+
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        offset = tl.load(SEQLEN_OFFSETS + pid_batch)
+    else:
+        offset = SEQLEN_OFFSETS
+    rm_cs = rm + offset
+
+    rm_cs = tl.where(rm_cs < seqlen_ro, rm_cs, seqlen_ro - 1)
+
+    if not INTERLEAVED:
+        x0_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x1_ptr = x_ptr + rm[:, None] * stride_x_seqlen + (rk_half + rotary_dim_half)[None, :] * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * stride_cos_seqlen + rk_half[None, :] * stride_cos_dim
+        sin_ptr = SIN + rm_cs[:, None] * stride_sin_seqlen + rk_half[None, :] * stride_sin_dim
+
+        mask_m = rm[:, None] < cur_seqlen
+        mask_k_half = rk_half[None, :] < rotary_dim_half
+
+        cos = tl.load(cos_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half, other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=mask_m & mask_k_half, other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_m & mask_k_half, other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 o0, mask=mask_m & mask_k_half)
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + (rk_half + rotary_dim_half)[None, :] * stride_out_headdim,
+                 o1, mask=mask_m & mask_k_half)
+    else:
+        rk_even = 2 * tl.arange(0, rotary_dim_half)
+        rk_odd = 2 * tl.arange(0, rotary_dim_half) + 1
+
+        x0_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_even[None, :] * stride_x_headdim
+        x1_ptr = x_ptr + rm[:, None] * stride_x_seqlen + rk_odd[None, :] * stride_x_headdim
+        cos_ptr = COS + rm_cs[:, None] * stride_cos_seqlen + tl.arange(0, rotary_dim_half)[None, :] * stride_cos_dim
+        sin_ptr = SIN + rm_cs[:, None] * stride_sin_seqlen + tl.arange(0, rotary_dim_half)[None, :] * stride_sin_dim
+
+        mask_m = rm[:, None] < cur_seqlen
+        mask_half = tl.arange(0, rotary_dim_half)[None, :] < rotary_dim_half
+
+        cos = tl.load(cos_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_half, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=(rm_cs[:, None] < seqlen_ro) & mask_half, other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=mask_m & mask_half, other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_m & mask_half, other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_even[None, :] * stride_out_headdim,
+                 o0, mask=mask_m & mask_half)
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_odd[None, :] * stride_out_headdim,
+                 o1, mask=mask_m & mask_half)
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    """Apply rotary embedding to the input tensor x using Triton kernels optimized for AMD GPU ROCm."""
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        if max_seqlen is None:
+            raise ValueError("max_seqlen must be provided if cu_seqlens is used")
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+
+    seqlen_ro, rotary_dimhalf = cos.shape
+    rotary_dim = rotary_dimhalf * 2
+    assert rotary_dim <= headdim
+    assert headdim <= 256
+    assert seqlen_ro >= seqlen
+    assert cos.dtype == sin.dtype == x.dtype
+
+    cos, sin = cos.contiguous(), sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert seqlen_offsets + seqlen <= seqlen_ro
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        if not is_varlen:
+            output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+        else:
+            output[:, :, rotary_dim:].copy_(x[:, :, rotary_dim:])
+
+    BLOCK_K = (
+        32 if rotary_dim <= 32 else
+        64 if rotary_dim <= 64 else
+        128 if rotary_dim <= 128 else 256
+    )
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    rotary_kernel[grid](
+        output, x, cos, sin, cu_seqlens, seqlen_offsets,
+        seqlen, nheads, rotary_dim, seqlen_ro,
+        seqlen // 128,
+        output.stride(0) if not is_varlen else 0,
+        output.stride(-3), output.stride(-2), output.stride(-1),
+        x.stride(0) if not is_varlen else 0,
+        x.stride(-3), x.stride(-2), x.stride(-1),
+        cos.stride(0), cos.stride(1),
+        sin.stride(0), sin.stride(1),
+        BLOCK_K=BLOCK_K,
+        IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+        IS_VARLEN=is_varlen,
+        INTERLEAVED=interleaved,
+        CONJUGATE=conjugate,
+        BLOCK_M=BLOCK_M
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_460195.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_460195.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_460195.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_460195.py.stdout
new file mode 100644
index 0000000..ed65b02
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_460195.py.stdout
@@ -0,0 +1,14 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_460195 due to at 90:22:
+        if CONJUGATE:
+            sin = -sin
+
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 o0, mask=mask_m & mask_k_half)
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + (rk_half + rotary_dim_half)[None, :] * stride_out_headdim,
+                 o1, mask=mask_m & mask_k_half)
+    else:
+        rk_even = 2 * tl.arange(0, rotary_dim_half)
+                      ^
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_527413.py b/src/temp/gen/rotary_transform.py_gen_triton_code_527413.py
new file mode 100644
index 0000000..070d84e
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_527413.py
@@ -0,0 +1,247 @@
+
+import torch
+import triton
+import triton.language as tl
+import math
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT, X, COS, SIN, CU_SEQLENS, SEQLEN_OFFSETS,
+    seqlen, nheads, rotary_dim, seqlen_ro, CACHE_KEY_SEQLEN,
+    stride_out_batch, stride_out_seqlen, stride_out_nheads, stride_out_headdim,
+    stride_x_batch, stride_x_seqlen, stride_x_nheads, stride_x_headdim,
+    BLOCK_K: tl.constexpr, IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr, INTERLEAVED: tl.constexpr, CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+    rotary_dim_half = rotary_dim // 2
+
+    if not IS_VARLEN:
+        x_ptr = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        x_ptr = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        out_ptr = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    mask_m = rm < seqlen
+    rm_cs = rm
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    else:
+        rm_cs = rm + SEQLEN_OFFSETS
+
+    if not INTERLEAVED:
+        rk_half = tl.arange(0, BLOCK_K)
+        mask_k = rk_half < rotary_dim_half
+        x0 = tl.load(x_ptr + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim,
+                     mask=mask_m[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+        x1 = tl.load(x_ptr + rm[:, None] * stride_x_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_x_headdim,
+                     mask=mask_m[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+        cos = tl.load(COS + rm_cs[:, None] * rotary_dim_half + rk_half[None, :],
+                      mask=(rm_cs[:, None] < seqlen_ro) & mask_k[None, :], other=1.0).to(tl.float32)
+        sin = tl.load(SIN + rm_cs[:, None] * rotary_dim_half + rk_half[None, :],
+                      mask=(rm_cs[:, None] < seqlen_ro) & mask_k[None, :], other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 o0, mask=mask_m[:, None] & mask_k[None, :])
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_out_headdim,
+                 o1, mask=mask_m[:, None] & mask_k[None, :])
+    else:
+        rk = tl.arange(0, BLOCK_K)
+        mask_k = rk < rotary_dim
+        x = tl.load(x_ptr + rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim,
+                    mask=mask_m[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+        rk_half = rk // 2
+        mask_k_half = rk_half < rotary_dim_half
+        cos = tl.load(COS + rm_cs[:, None] * rotary_dim_half + rk_half[None, :],
+                      mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half[None, :], other=1.0).to(tl.float32)
+        sin = tl.load(SIN + rm_cs[:, None] * rotary_dim_half + rk_half[None, :],
+                      mask=(rm_cs[:, None] < seqlen_ro) & mask_k_half[None, :], other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        cos = tl.where(rk[None, :] % 2 == 0, cos, cos)
+        sin = tl.where(rk[None, :] % 2 == 0, sin, sin)
+        x0 = x
+        x1 = tl.roll(x, shifts=1, axis=1)
+        x1 = tl.where(rk[None, :] % 2 == 0, x1, -x1)
+        out = x0 * cos - x1 * sin
+        tl.store(out_ptr + rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim,
+                 out, mask=mask_m[:, None] & mask_k[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None, "If cu_seqlens is passed in, then max_seqlen must be passed"
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim, "rotary_dim must be <= headdim"
+    assert headdim <= 256, "Only support headdim <= 256"
+    assert seqlen_ro >= seqlen, "seqlen_ro must be >= seqlen"
+    assert cos.dtype == sin.dtype, f"cos and sin must have the same dtype, got {cos.dtype} and {sin.dtype}"
+    assert x.dtype == cos.dtype, f"Input and cos/sin must have the same dtype, got {x.dtype} and {cos.dtype}"
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in [torch.int32, torch.int64]
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert seqlen_offsets + seqlen <= seqlen_ro
+        seqlen_offsets = int(seqlen_offsets)
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K_m = (
+        32 if rotary_dim_half <= 32
+        else 64 if rotary_dim_half <= 64
+        else 128 if rotary_dim_half <= 128
+        else 256
+    )
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    rotary_kernel[grid](
+        output, x, cos, sin, cu_seqlens, seqlen_offsets,
+        seqlen, nheads, rotary_dim, seqlen_ro, seqlen // 128,
+        output.stride(0) if not is_varlen else 0,
+        output.stride(-3) if x.dim() == 4 else output.stride(-2),
+        output.stride(-2) if x.dim() == 4 else output.stride(-1),
+        output.stride(-1) if x.dim() == 4 else 1,
+        x.stride(0) if not is_varlen else 0,
+        x.stride(-3) if x.dim() == 4 else x.stride(-2),
+        x.stride(-2) if x.dim() == 4 else x.stride(-1),
+        x.stride(-1) if x.dim() == 4 else 1,
+        BLOCK_K_m, isinstance(seqlen_offsets, torch.Tensor),
+        is_varlen, interleaved, conjugate, BLOCK_M,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_527413.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_527413.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_527413.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_527413.py.stdout
new file mode 100644
index 0000000..04cdeae
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_527413.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_527413 due to module 'triton.language' has no attribute 'roll'
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_540784.py b/src/temp/gen/rotary_transform.py_gen_triton_code_540784.py
new file mode 100644
index 0000000..ebe22b7
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_540784.py
@@ -0,0 +1,284 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Union, Optional
+
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_batch = tl.program_id(1)
+    pid_head = tl.program_id(2)
+    rotary_dim_half = rotary_dim // 2
+
+    if IS_VARLEN:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        cur_seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        x_start = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        out_start = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+    else:
+        cur_seqlen = seqlen
+        x_start = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_start = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= cur_seqlen:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    rk_half = tl.arange(0, BLOCK_K)
+
+    if not INTERLEAVED:
+        cos_ptr = COS + (rm_cs[:, None] * rotary_dim_half + rk_half[None, :])
+        sin_ptr = SIN + (rm_cs[:, None] * rotary_dim_half + rk_half[None, :])
+        mask_cs = (rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half)
+        cos = tl.load(cos_ptr, mask=mask_cs, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=mask_cs, other=0.0).to(tl.float32)
+
+        left_ptr = x_start + (rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim)
+        right_ptr = x_start + (rm[:, None] * stride_x_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_x_headdim)
+        mask_lr = (rm[:, None] < cur_seqlen) & (rk_half[None, :] < rotary_dim_half)
+
+        x0 = tl.load(left_ptr, mask=mask_lr, other=0.0).to(tl.float32)
+        x1 = tl.load(right_ptr, mask=mask_lr, other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        out0 = x0 * cos - x1 * sin
+        out1 = x0 * sin + x1 * cos
+
+        tl.store(
+            out_start + (rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim),
+            out0,
+            mask=mask_lr,
+        )
+        tl.store(
+            out_start + (rm[:, None] * stride_out_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_out_headdim),
+            out1,
+            mask=mask_lr,
+        )
+    else:
+        rk = tl.arange(0, 2 * BLOCK_K)
+        cos_ptr = COS + (rm_cs[:, None] * rotary_dim_half + (rk[None, :] // 2))
+        sin_ptr = SIN + (rm_cs[:, None] * rotary_dim_half + (rk[None, :] // 2))
+        mask_cs = (rm_cs[:, None] < seqlen_ro) & (rk[None, :] < rotary_dim)
+        cos = tl.load(cos_ptr, mask=mask_cs, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=mask_cs, other=0.0).to(tl.float32)
+
+        x_ptr = x_start + (rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim)
+        mask_x = (rm[:, None] < cur_seqlen) & (rk[None, :] < rotary_dim)
+        x0 = tl.load(x_ptr, mask=mask_x, other=0.0).to(tl.float32)
+
+        x1_ptr = x_start + (rm[:, None] * stride_x_seqlen + (rk[None, :] ^ 1) * stride_x_headdim)
+        x1 = tl.load(x1_ptr, mask=mask_x, other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        out = tl.where(rk[None, :] % 2 == 0, x0 * cos - x1 * sin, x0 * sin + x1 * cos)
+        tl.store(
+            out_start + (rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim),
+            out,
+            mask=mask_x,
+        )
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None, "max_seqlen required when cu_seqlens given"
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+
+    seqlen_ro, rotary_half = cos.shape
+    rotary_dim = rotary_half * 2
+    assert rotary_dim <= headdim
+    assert cos.dtype == sin.dtype == x.dtype
+    cos, sin = cos.contiguous(), sin.contiguous()
+
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert seqlen_offsets + seqlen <= seqlen_ro
+
+    output = x if inplace else torch.empty_like(x)
+    if rotary_dim < headdim and not inplace:
+        if not is_varlen:
+            output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+        else:
+            output[:, :, rotary_dim:].copy_(x[:, :, rotary_dim:])
+
+    BLOCK_K = max(32, triton.next_power_of_2(rotary_half))
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    rotary_kernel[grid](
+        output,
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlen_offsets,
+        seqlen,
+        nheads,
+        rotary_dim,
+        seqlen_ro,
+        seqlen // 128,
+        output.stride(0) if not is_varlen else 0,
+        output.stride(-3),
+        output.stride(-2),
+        output.stride(-1),
+        x.stride(0) if not is_varlen else 0,
+        x.stride(-3),
+        x.stride(-2),
+        x.stride(-1),
+        BLOCK_K=BLOCK_K,
+        IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+        IS_VARLEN=is_varlen,
+        INTERLEAVED=interleaved,
+        CONJUGATE=conjugate,
+        BLOCK_M=BLOCK_M,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_540784.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_540784.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_540784.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_540784.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_540784.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_549779.py b/src/temp/gen/rotary_transform.py_gen_triton_code_549779.py
new file mode 100644
index 0000000..14fa707
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_549779.py
@@ -0,0 +1,317 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLENS,
+    max_seqlen,
+    stride_xb,
+    stride_xh,
+    stride_xm,
+    stride_xk,
+    stride_cosm,
+    stride_cosk,
+    stride_sinm,
+    stride_sink,
+    stride_outb,
+    stride_outh,
+    stride_outm,
+    stride_outk,
+    TOTAL_TOKENS,
+    HEAD_NUM,
+    HEAD_DIM: tl.constexpr,
+    IS_INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    IS_INPLACE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    seq_start = 0
+    seq_end = max_seqlen
+    if CU_SEQLENS is not None:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        seq_end = tl.load(CU_SEQLENS + pid_batch + 1)
+    else:
+        seq_start = pid_batch * max_seqlen
+        seq_end = (pid_batch + 1) * max_seqlen
+
+    actual_seqlen = seq_end - seq_start
+    if pid_m * BLOCK_M >= actual_seqlen:
+        return
+
+    if CU_SEQLENS is not None:
+        batch_offset = 0
+    else:
+        batch_offset = pid_batch
+
+    head_offset = pid_head
+    d_half = HEAD_DIM // 2
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_n = tl.arange(0, BLOCK_N)
+    mask_m = offs_m < actual_seqlen
+
+    if IS_INTERLEAVED:
+        for il in range(0, HEAD_DIM // 2):
+            offs_k_cos_0 = il
+            offs_k_cos_1 = il + d_half
+
+            if CU_SEQLENS is not None:
+                ptr_x_0 = X + seq_start * stride_xm + head_offset * stride_xh + offs_m[:, None] * stride_xm + offs_k_cos_0 * 2 * stride_xk + offs_n[None, :] * 2
+                ptr_x_1 = X + seq_start * stride_xm + head_offset * stride_xh + offs_m[:, None] * stride_xm + offs_k_cos_0 * 2 * stride_xk + offs_n[None, :] * 2 + stride_xk
+                ptr_cos = COS + offs_m[:, None] * stride_cosm + offs_k_cos_0 * stride_cosk
+                ptr_sin = SIN + offs_m[:, None] * stride_sinm + offs_k_cos_0 * stride_sink
+            else:
+                ptr_x_0 = X + batch_offset * stride_xb + head_offset * stride_xh + offs_m[:, None] * stride_xm + offs_k_cos_0 * 2 * stride_xk + offs_n[None, :] * 2
+                ptr_x_1 = X + batch_offset * stride_xb + head_offset * stride_xh + offs_m[:, None] * stride_xm + offs_k_cos_0 * 2 * stride_xk + offs_n[None, :] * 2 + stride_xk
+                ptr_cos = COS + offs_m[:, None] * stride_cosm + offs_k_cos_0 * stride_cosk
+                ptr_sin = SIN + offs_m[:, None] * stride_sinm + offs_k_cos_0 * stride_sink
+
+            x0 = tl.load(ptr_x_0, mask=mask_m[:, None])
+            x1 = tl.load(ptr_x_1, mask=mask_m[:, None])
+            c = tl.load(ptr_cos, mask=mask_m[:, None])
+            s = tl.load(ptr_sin, mask=mask_m[:, None])
+
+            if CONJUGATE:
+                tmp = x0 * c + x1 * s
+                x1 = x1 * c - x0 * s
+                x0 = tmp
+            else:
+                tmp = x0 * c - x1 * s
+                x1 = x0 * s + x1 * c
+                x0 = tmp
+
+            if IS_INPLACE:
+                tl.store(ptr_x_0, x0.to(ptr_x_0.type.element_ty), mask=mask_m[:, None])
+                tl.store(ptr_x_1, x1.to(ptr_x_1.type.element_ty), mask=mask_m[:, None])
+            else:
+                if CU_SEQLENS is not None:
+                    ptr_out_0 = OUT + seq_start * stride_outm + head_offset * stride_outh + offs_m[:, None] * stride_outm + offs_k_cos_0 * 2 * stride_outk + offs_n[None, :] * 2
+                    ptr_out_1 = OUT + seq_start * stride_outm + head_offset * stride_outh + offs_m[:, None] * stride_outm + offs_k_cos_0 * 2 * stride_outk + offs_n[None, :] * 2 + stride_outk
+                else:
+                    ptr_out_0 = OUT + batch_offset * stride_outb + head_offset * stride_outh + offs_m[:, None] * stride_outm + offs_k_cos_0 * 2 * stride_outk + offs_n[None, :] * 2
+                    ptr_out_1 = OUT + batch_offset * stride_outb + head_offset * stride_outh + offs_m[:, None] * stride_outm + offs_k_cos_0 * 2 * stride_outk + offs_n[None, :] 2 + stride_outk
+                tl.store(ptr_out_0, x0.to(ptr_out_0.type.element_ty), mask=mask_m[:, None])
+                tl.store(ptr_out_1, x1.to(ptr_out_1.type.element_ty), mask=mask_m[:, None])
+    else:
+        for ih in range(0, 2):
+            if ih == 0:
+                offs_k_start = 0
+                offs_k_end = d_half
+                offs_cos_k = 0
+            else:
+                offs_k_start = d_half
+                offs_k_end = HEAD_DIM
+                offs_cos_k = 1
+
+            if CU_SEQLENS is not None:
+                ptr_x_base = X + seq_start * stride_xm + head_offset * stride_xh
+                ptr_cos_base = COS + offs_m[:, None] * stride_cosm + offs_cos_k * stride_cosk
+                ptr_sin_base = SIN + offs_m[:, None] * stride_sinm + offs_cos_k * stride_sink
+                ptr_out_base = OUT + seq_start * stride_outm + head_offset * stride_outh
+            else:
+                ptr_x_base = X + batch_offset * stride_xb + head_offset * stride_xh
+                ptr_cos_base = COS + offs_m[:, None] * stride_cosm + offs_cos_k * stride_cosk
+                ptr_sin_base = SIN + offs_m[:, None] * stride_sinm + offs_cos_k * stride_sink
+                ptr_out_base = OUT + batch_offset * stride_outb + head_offset * stride_outh
+
+            x0 = tl.load(ptr_x_base + offs_m[:, None] * stride_xm + (tl.arange(offs_k_start, offs_k_end)[None, :]) * stride_xk, mask=mask_m[:, None])
+            x1 = tl.load(ptr_x_base + offs_m[:, None] * stride_xm + (tl.arange(offs_k_start + d_half, offs_k_end + d_half)[None, :]) * stride_xk, mask=mask_m[:, None])
+
+            c = tl.load(ptr_cos_base)
+            s = tl.load(ptr_sin_base)
+
+            if CONJUGATE:
+                tmp = x0 * c + x1 * s
+                x1 = x1 * c - x0 * s
+                x0 = tmp
+            else:
+                tmp = x0 * c - x1 * s
+                x1 = x0 * s + x1 * c
+                x0 = tmp
+
+            if IS_INPLACE:
+                tl.store(ptr_x_base + offs_m[:, None] * stride_xm + (tl.arange(offs_k_start, offs_k_end)[None, :]) * stride_xk, x0.to(ptr_x_base.type.element_ty), mask=mask_m[:, None])
+                tl.store(ptr_x_base + offs_m[:, None] * stride_xm + (tl.arange(offs_k_start + d_half, offs_k_end + d_half)[None, :]) * stride_xk, x1.to(ptr_x_base.type.element_ty), mask=mask_m[:, None])
+            else:
+                tl.store(ptr_out_base + offs_m[:, None] * stride_outm + (tl.arange(offs_k_start, offs_k_end)[None, :]) * stride_outk, x0.to(ptr_out_base.type.element_ty), mask=mask_m[:, None])
+                tl.store(ptr_out_base + offs_m[:, None] * stride_outm + (tl.arange(offs_k_start + d_half, offs_k_end + d_half)[None, :]) * stride_outk, x1.to(ptr_out_base.type.element_ty), mask=mask_m[:, None])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: int = 0,
+    cu_seqlens: torch.Tensor = None,
+    max_seqlen: int = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+):
+    assert x.dim() == 4
+    batch, head_num, seqlen, headdim = x.shape
+
+    if max_seqlen is None:
+        if cu_seqlens is None:
+            max_seqlen = seqlen
+        else:
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
+
+    BLOCK_M = max(16, min(128, triton.next_power_of_2(max_seqlen)))
+
+    if inplace:
+        out = x
+    else:
+        out = torch.empty_like(x)
+
+    grid = (
+        batch,
+        head_num,
+        triton.cdiv(max_seqlen, BLOCK_M),
+    )
+
+    rotary_kernel[grid](
+        out,
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        None,
+        max_seqlen,
+        x.stride(0),
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        cos.stride(0) if cos.dim() > 1 else 0,
+        cos.stride(1) if cos.dim() > 1 else cos.stride(0),
+        sin.stride(0) if sin.dim() > 1 else 0,
+        sin.stride(1) if sin.dim() > 1 else sin.stride(0),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        out.stride(3),
+        batch * seqlen,
+        head_num,
+        HEAD_DIM=headdim,
+        IS_INTERLEAVED=interleaved,
+        CONJUGATE=conjugate,
+        IS_INPLACE=inplace,
+        BLOCK_M=BLOCK_M,
+        BLOCK_N=1,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_549779.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_549779.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_549779.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_549779.py.stdout
new file mode 100644
index 0000000..e693b35
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_549779.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_549779 due to invalid syntax (rotary_transform.py_gen_triton_code_549779.py, line 105)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_555768.py b/src/temp/gen/rotary_transform.py_gen_triton_code_555768.py
new file mode 100644
index 0000000..96a53e3
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_555768.py
@@ -0,0 +1,351 @@
+
+import torch
+import triton
+import triton.language as tl
+import math
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT,  # Pointers to matrices
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,  # this could be int or a pointer
+    # Matrix dimensions
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    # strides
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    # Meta-parameters
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+
+    rotary_dim_half = rotary_dim // 2
+
+    cu_seqlens_ptr = CU_SEQLENS
+    seqlen_offsets_ptr = SEQLEN_OFFSETS
+
+    if not IS_VARLEN or CU_SEQLENS is None:
+        X = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        OUT = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+        cur_seqlen = seqlen
+    else:
+        seq_start = tl.load(cu_seqlens_ptr + pid_batch)
+        cur_seqlen = tl.load(cu_seqlens_ptr + pid_batch + 1) - seq_start
+        X = X + seq_start * stride_x_seqlen + pid_head * stride_x_nheads
+        OUT = OUT + seq_start * stride_out_seqlen + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= cur_seqlen:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rk = tl.arange(0, BLOCK_K)
+    rk_half = tl.arange(0, BLOCK_K // 2)
+
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(seqlen_offsets_ptr + pid_batch)
+
+    if not INTERLEAVED:
+        x0_ptr = X + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x1_ptr = X + rm[:, None] * stride_x_seqlen + (rk_half + rotary_dim_half)[None, :] * stride_x_headdim
+
+        c_ptr = COS + rm_cs[:, None] * stride_sin_seqlen + rk_half[None, :] * stride_sin_headdim
+        s_ptr = SIN + rm_cs[:, None] * stride_sin_seqlen + rk_half[None, :] * stride_sin_headdim
+
+        mask_m = rm[:, None] < cur_seqlen
+        mask_ro_k = (rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half)
+        mask_x_k = mask_m & (rk_half[None, :] < rotary_dim_half)
+
+        c = tl.load(c_ptr, mask=mask_ro_k, other=1.0).to(tl.float32)
+        s = tl.load(s_ptr, mask=mask_ro_k, other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=mask_x_k, other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_x_k, other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            s = -s
+
+        o0 = x0 * c - x1 * s
+        o1 = x0 * s + x1 * c
+
+        out0_ptr = OUT + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim
+        out1_ptr = OUT + rm[:, None] * stride_out_seqlen + (rk_half + rotary_dim_half)[None, :] * stride_out_headdim
+
+        tl.store(out0_ptr, o0, mask=mask_x_k)
+        tl.store(out1_ptr, o1, mask=mask_x_k)
+    else:
+        offs_d = 2 * tl.arange(0, rotary_dim_half)
+        x0_ptr = X + rm[:, None] * stride_x_seqlen + offs_d[None, :] * stride_x_headdim
+        x1_ptr = X + rm[:, None] * stride_x_seqlen + (offs_d + 1)[None, :] * stride_x_headdim
+
+        c_ptr = COS + rm_cs[:, None] * stride_sin_seqlen + tl.arange(0, rotary_dim_half)[None, :] * stride_sin_headdim
+        s_ptr = SIN + rm_cs[:, None] * stride_sin_seqlen + tl.arange(0, rotary_dim_half)[None, :] * stride_sin_headdim
+
+        mask_m = rm[:, None] < cur_seqlen
+        mask_ro_k = (rm_cs[:, None] < seqlen_ro) & (tl.arange(0, rotary_dim_half)[None, :] < rotary_dim // 2)
+        mask_x_k = mask_m & (tl.arange(0, rotary_dim_half)[None, :] < rotary_dim // 2)
+
+        c = tl.load(c_ptr, mask=mask_ro_k, other=1.0).to(tl.float32)
+        s = tl.load(s_ptr, mask=mask_ro_k, other=0.0).to(tl.float32)
+        x0 = tl.load(x0_ptr, mask=mask_x_k, other=0.0).to(tl.float32)
+        x1 = tl.load(x1_ptr, mask=mask_x_k, other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            s = -s
+
+        o0 = x0 * c - x1 * s
+        o1 = x0 * s + x1 * c
+
+        out0_ptr = OUT + rm[:, None] * stride_out_seqlen + offs_d[None, :] * stride_out_headdim
+        out1_ptr = OUT + rm[:, None] * stride_out_seqlen + (offs_d + 1)[None, :] * stride_out_headdim
+
+        tl.store(out0_ptr, o0, mask=mask_x_k)
+        tl.store(out1_ptr, o1, mask=mask_x_k)
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    """
+    Apply rotary embedding to the input tensor x using Triton kernels optimized for AMD GPU ROCm.
+
+    Arguments:
+        x: (batch, seqlen, nheads, headdim) if cu_seqlens is None
+           else (total_seqlen, nheads, headdim).
+        cos: (seqlen_ro, rotary_dim / 2)
+        sin: (seqlen_ro, rotary_dim / 2)
+        seqlen_offsets: integer or integer tensor of size (batch,)
+        cu_seqlens: (batch + 1,) or None
+        max_seqlen: int. Required if cu_seqlens is not None.
+        interleaved: Use interleaved layout (rotary_dim = headdim // 2)
+        inplace: Whether to perform the rotation in-place (x will be modified)
+        conjugate: Whether to negate the sine component
+    Returns:
+        y: (batch, seqlen, nheads, headdim) or (total_seqlen, nheads, headdim) same shape as x
+    """
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        if max_seqlen is None:
+            raise ValueError("max_seqlen must be provided if cu_seqlens is used")
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+
+    seqlen_ro, rotary_dimhalf = cos.shape
+    rotary_dim = rotary_dimhalf * 2
+    assert sin.shape == cos.shape
+    assert rotary_dim <= headdim, f"Rotary dimension={rotary_dim} must be <= head_dim={headdim}"
+    assert headdim <= 256, "Only support headdim <= 256"
+    assert seqlen_ro >= seqlen, f"seqlen_ro={seqlen_ro} must >= seqlen={seqlen}"
+    assert cos.dtype == sin.dtype
+    assert x.dtype == cos.dtype
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert seqlen_offsets + seqlen <= seqlen_ro
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        if not is_varlen:
+            output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+        else:
+            output[:, :, rotary_dim:].copy_(x[:, :, rotary_dim:])
+
+    BLOCK_K = (
+        32 if rotary_dim <= 32 else
+        64 if rotary_dim <= 64 else
+        128 if rotary_dim <= 128 else 256
+    )
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    # Set strides correctly depending on tensor shape
+    if x.dim() == 4:
+        x_stride_b, x_stride_seqlen, x_stride_h, x_stride_d = (
+            x.stride(0), x.stride(1), x.stride(2), x.stride(3)
+        )
+        output_stride_b, output_stride_seqlen, output_stride_h, output_stride_d = (
+            output.stride(0), output.stride(1), output.stride(2), output.stride(3)
+        )
+    else:  # x.dim() == 3
+        x_stride_b, x_stride_seqlen, x_stride_h, x_stride_d = (
+            0, x.stride(0), x.stride(1), x.stride(2)
+        )
+        output_stride_b, output_stride_seqlen, output_stride_h, output_stride_d = (
+            0, output.stride(0), output.stride(1), output.stride(2)
+        )
+
+    cos_stride_m = cos.stride(0)
+    cos_stride_n = cos.stride(1)
+    sin_stride_m = sin.stride(0)
+    sin_stride_n = sin.stride(1)
+
+    global stride_sin_seqlen, stride_sin_headdim
+    stride_sin_seqlen = cos_stride_m
+    stride_sin_headdim = cos_stride_n
+
+    with torch.cuda.device(x.device.index):
+        rotary_kernel[grid](
+            output,
+            x,
+            cos,
+            sin,
+            cu_seqlens,
+            seqlen_offsets,
+            seqlen,
+            nheads,
+            rotary_dim,
+            seqlen_ro,
+            seqlen // 128,  # cache key
+            output_stride_b,
+            output_stride_seqlen,
+            output_stride_h,
+            output_stride_d,
+            x_stride_b,
+            x_stride_seqlen,
+            x_stride_h,
+            x_stride_d,
+            BLOCK_K=BLOCK_K,
+            IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+            IS_VARLEN=is_varlen,
+            INTERLEAVED=interleaved,
+            CONJUGATE=conjugate,
+            BLOCK_M=BLOCK_M
+        )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_555768.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_555768.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_555768.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_555768.py.stdout
new file mode 100644
index 0000000..610ffe2
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_555768.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_555768 due to at 66:39:
+    rk_half = tl.arange(0, BLOCK_K // 2)
+
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(seqlen_offsets_ptr + pid_batch)
+
+    if not INTERLEAVED:
+        x0_ptr = X + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x1_ptr = X + rm[:, None] * stride_x_seqlen + (rk_half + rotary_dim_half)[None, :] * stride_x_headdim
+
+        c_ptr = COS + rm_cs[:, None] * stride_sin_seqlen + rk_half[None, :] * stride_sin_headdim
+                                       ^
+NameError("Cannot access global variable stride_sin_seqlen from within @jit'ed function. Triton kernels can only access global variables that are annotated as constexpr (`x: triton.language.constexpr = 42` or `x = triton.language.constexpr(42)`).  Alternatively, set the envvar TRITON_ALLOW_NON_CONSTEXPR_GLOBALS=1, but we do not promise to support this forever.")
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_634902.py b/src/temp/gen/rotary_transform.py_gen_triton_code_634902.py
new file mode 100644
index 0000000..9ae0b89
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_634902.py
@@ -0,0 +1,256 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT, X, COS, SIN, CU_SEQLENS, SEQLEN_OFFSETS,
+    seqlen, nheads, rotary_dim, seqlen_ro, CACHE_KEY_SEQLEN,
+    stride_out_batch, stride_out_seqlen, stride_out_nheads, stride_out_headdim,
+    stride_x_batch, stride_x_seqlen, stride_x_nheads, stride_x_headdim,
+    BLOCK_K: tl.constexpr, IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr, INTERLEAVED: tl.constexpr, CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_batch = tl.program_id(1)
+    pid_head = tl.program_id(2)
+    rotary_dim_half = rotary_dim // 2
+
+    if not IS_VARLEN:
+        x_base = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_base = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        x_base = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        out_base = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    mask_m = rm < seqlen
+
+    if IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    else:
+        rm_cs = rm + SEQLEN_OFFSETS
+    mask_cs = rm_cs < seqlen_ro
+
+    if not INTERLEAVED:
+        rk_half = tl.arange(0, BLOCK_K)
+        mask_k = rk_half < rotary_dim_half
+        mask_x0 = mask_m[:, None] & mask_k[None, :]
+        mask_x1 = mask_m[:, None] & mask_k[None, :]
+        x0 = tl.load(x_base + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim,
+                     mask=mask_x0, other=0.0).to(tl.float32)
+        x1 = tl.load(x_base + rm[:, None] * stride_x_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_x_headdim,
+                     mask=mask_x1, other=0.0).to(tl.float32)
+        cos_v = tl.load(COS + rm_cs[:, None] * rotary_dim_half + rk_half[None, :],
+                        mask=mask_cs[:, None] & mask_k[None, :], other=1.0).to(tl.float32)
+        sin_v = tl.load(SIN + rm_cs[:, None] * rotary_dim_half + rk_half[None, :],
+                        mask=mask_cs[:, None] & mask_k[None, :], other=0.0).to(tl.float32)
+    else:
+        rk = tl.arange(0, BLOCK_K)
+        mask_k = rk < rotary_dim
+        mask_x = mask_m[:, None] & mask_k[None, :]
+        x = tl.load(x_base + rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim,
+                    mask=mask_x, other=0.0).to(tl.float32)
+        rk_half = rk // 2
+        mask_k_half = rk_half < rotary_dim_half
+        cos_v = tl.load(COS + rm_cs[:, None] * rotary_dim_half + rk_half[None, :],
+                        mask=mask_cs[:, None] & mask_k_half[None, :], other=1.0).to(tl.float32)
+        sin_v = tl.load(SIN + rm_cs[:, None] * rotary_dim_half + rk_half[None, :],
+                        mask=mask_cs[:, None] & mask_k_half[None, :], other=0.0).to(tl.float32)
+
+    if CONJUGATE:
+        sin_v = -sin_v
+
+    if not INTERLEAVED:
+        o0 = x0 * cos_v - x1 * sin_v
+        o1 = x0 * sin_v + x1 * cos_v
+        tl.store(out_base + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 o0, mask=mask_x0)
+        tl.store(out_base + rm[:, None] * stride_out_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_out_headdim,
+                 o1, mask=mask_x1)
+    else:
+        rk_pair = (rk + (-1 if rk % 2 == 0 else 1)) % rotary_dim
+        mask_pair = mask_m[:, None] & mask_k[None, :]
+        x_pair = tl.load(x_base + rm[:, None] * stride_x_seqlen + rk_pair[None, :] * stride_x_headdim,
+                         mask=mask_pair, other=0.0).to(tl.float32)
+        neg = tl.where(rk % 2 == 0, -1.0, 1.0)
+        o = x * cos_v + neg * x_pair * sin_v
+        tl.store(out_base + rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim,
+                 o, mask=mask_x)
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None, "If cu_seqlens is passed in, then max_seqlen must be passed"
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim, "rotary_dim must be <= headdim"
+    assert headdim <= 256, "Only support headdim <= 256"
+    assert seqlen_ro >= seqlen, "seqlen_ro must be >= seqlen"
+    assert cos.dtype == sin.dtype, f"cos and sin must have the same dtype, got {cos.dtype} and {sin.dtype}"
+    assert x.dtype == cos.dtype, f"Input and cos/sin must have the same dtype, got {x.dtype} and {cos.dtype}"
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in [torch.int32, torch.int64]
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        seqlen_offsets = int(seqlen_offsets)
+        assert seqlen_offsets + seqlen <= seqlen_ro
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = (
+        32 if rotary_dim_half <= 32 else
+        64 if rotary_dim_half <= 64 else
+        128 if rotary_dim_half <= 128 else
+        256
+    )
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    rotary_kernel[grid](
+        output, x, cos, sin, cu_seqlens, seqlen_offsets,
+        seqlen, nheads, rotary_dim, seqlen_ro, seqlen // 128,
+        output.stride(0) if not is_varlen else 0,
+        output.stride(-3),
+        output.stride(-2),
+        output.stride(-1),
+        x.stride(0) if not is_varlen else 0,
+        x.stride(-3),
+        x.stride(-2),
+        x.stride(-1),
+        BLOCK_K,
+        isinstance(seqlen_offsets, torch.Tensor),
+        is_varlen,
+        interleaved,
+        conjugate,
+        BLOCK_M,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_634902.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_634902.py.stderr
new file mode 100644
index 0000000..d0d524f
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_634902.py.stderr
@@ -0,0 +1,2 @@
+python3: /source/llvm-project/llvm/include/llvm/Support/Casting.h:566: decltype(auto) llvm::cast(const From &) [To = mlir::detail::TypedValue<mlir::IntegerType>, From = mlir::Value]: Assertion `isa<To>(Val) && "cast<Ty>() argument of incompatible type!"' failed.
+Aborted (core dumped)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_634902.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_634902.py.stdout
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_669031.py b/src/temp/gen/rotary_transform.py_gen_triton_code_669031.py
new file mode 100644
index 0000000..f26e1e6
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_669031.py
@@ -0,0 +1,265 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT, X, COS, SIN, CU_SEQLENS, SEQLEN_OFFSETS,
+    seqlen, nheads, rotary_dim, seqlen_ro, CACHE_KEY_SEQLEN,
+    stride_out_batch, stride_out_seqlen, stride_out_nheads, stride_out_headdim,
+    stride_x_batch, stride_x_seqlen, stride_x_nheads, stride_x_headdim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_batch = tl.program_id(1)
+    pid_head = tl.program_id(2)
+    rotary_dim_half = rotary_dim // 2
+
+    if not IS_VARLEN:
+        x_base = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_base = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+        seqlen_i = seqlen
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seqlen_i = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        x_base = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        out_base = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= seqlen_i:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rm_full_mask = rm < seqlen_i
+
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    rm_cs_mask = rm_cs < seqlen_ro
+
+    if not INTERLEAVED:
+        rk_half = tl.arange(0, BLOCK_K // 2)
+        rk_mask = rk_half[None, :] < rotary_dim_half
+
+        # Real part
+        off_x_real = x_base + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        x_real = tl.load(off_x_real, mask=rm_full_mask[:, None] & rk_mask, other=0.0).to(tl.float32)
+        # Imag part
+        off_x_imag = x_base + rm[:, None] * stride_x_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_x_headdim
+        x_imag = tl.load(off_x_imag, mask=rm_full_mask[:, None] & rk_mask, other=0.0).to(tl.float32)
+
+        off_cos = rm_cs[:, None] * (rotary_dim // 2) + rk_half[None, :]
+        cos = tl.load(COS + off_cos, mask=rm_cs_mask[:, None] & rk_mask, other=1.0).to(tl.float32)
+        sin_val = tl.load(SIN + off_cos, mask=rm_cs_mask[:, None] & rk_mask, other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin_val = -sin_val
+
+        o_real = x_real * cos - x_imag * sin_val
+        o_imag = x_real * sin_val + x_imag * cos
+
+        tl.store(out_base + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 o_real, mask=rm_full_mask[:, None] & rk_mask)
+        tl.store(out_base + rm[:, None] * stride_out_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_out_headdim,
+                 o_imag, mask=rm_full_mask[:, None] & rk_mask)
+    else:
+        rk = tl.arange(0, BLOCK_K)
+        mask_k = rk[None, :] < rotary_dim
+        rk_half_idx = rk // 2
+        mask_k_half = rk_half_idx[None, :] < rotary_dim_half
+
+        off_x = x_base + rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim
+        x_vals = tl.load(off_x, mask=rm_full_mask[:, None] & mask_k, other=0.0).to(tl.float32)
+        x0 = tl.where(rk[None, :] % 2 == 0, x_vals, 0)
+        x1 = tl.where(rk[None, :] % 2 == 1, x_vals, 0)
+
+        off_cos_sin = rm_cs[:, None] * (rotary_dim // 2) + rk_half_idx[None, :]
+        cos = tl.load(COS + off_cos_sin, mask=rm_cs_mask[:, None] & mask_k_half, other=1.0).to(tl.float32)
+        sin_val = tl.load(SIN + off_cos_sin, mask=rm_cs_mask[:, None] & mask_k_half, other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin_val = -sin_val
+
+        out_even = x0 * cos - x1 * sin_val
+        out_odd = x0 * sin_val + x1 * cos
+
+        out_vals = tl.where(rk[None, :] % 2 == 0, out_even, out_odd)
+        tl.store(out_base + rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim,
+                 out_vals, mask=rm_full_mask[:, None] & mask_k)
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None
+        total_seqlen, nheads, headdim = x.shape
+        seqlen = max_seqlen
+        batch = cu_seqlens.shape[0] - 1
+
+    seqlen_ro, rotary_dim_half = cos.shape
+    assert sin.shape == cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim
+
+    seqlen_ro_needed = seqlen
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        seqlen_offsets = seqlen_offsets.to(torch.int32).contiguous()
+        seqlen_ro_needed += seqlen_offsets.max().item()
+    else:
+        seqlen_ro_needed += seqlen_offsets
+    assert seqlen_ro >= seqlen_ro_needed
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+
+    output = x if inplace else torch.empty_like(x)
+    if not inplace and rotary_dim < headdim:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = 32 if rotary_dim <= 32 else \
+              64 if rotary_dim <= 64 else \
+              128 if rotary_dim <= 128 else 256
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    cu_seqlens_ptr = cu_seqlens.int().contiguous() if is_varlen else None
+
+    rotary_kernel[grid](
+        output, x, cos, sin, cu_seqlens_ptr, seqlen_offsets,
+        seqlen, nheads, rotary_dim, seqlen_ro, seqlen // 128,
+        output.stride(0) if not is_varlen else 0,
+        output.stride(1),
+        output.stride(2),
+        output.stride(3),
+        x.stride(0) if not is_varlen else 0,
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        BLOCK_K=BLOCK_K,
+        IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+        IS_VARLEN=is_varlen,
+        INTERLEAVED=interleaved,
+        CONJUGATE=conjugate,
+        BLOCK_M=BLOCK_M,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_669031.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_669031.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_669031.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_669031.py.stdout
new file mode 100644
index 0000000..d5e1467
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_669031.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_669031 due to Dimension out of range (expected to be in range of [-3, 2], but got 3)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_711258.py b/src/temp/gen/rotary_transform.py_gen_triton_code_711258.py
new file mode 100644
index 0000000..4d77ff3
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_711258.py
@@ -0,0 +1,252 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    X,
+    COS,
+    SIN,
+    OUT,
+    CU_SEQLENS,
+    SEQLENS,
+    stride_xbatch,
+    stride_xhead,
+    stride_xm,
+    stride_xk,
+    stride_cos_m,
+    stride_cos_k,
+    stride_sin_m,
+    stride_sin_k,
+    stride_obatch,
+    stride_ohead,
+    stride_om,
+    stride_ok,
+    TOTAL_TOKENS: tl.constexpr,
+    HEAD_DIM: tl.constexpr,
+    MAX_SEQLEN: tl.constexpr,
+    IS_VARIABLE_L: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    offsets_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offsets_k = tl.arange(0, BLOCK_K)
+
+    if IS_VARIABLE_L:
+        b_start = 0 if pid_batch == 0 else tl.load(CU_SEQLENS + pid_batch - 1)
+        b_end = tl.load(CU_SEQLENS + pid_batch)
+        seqlen = b_end - b_start
+    else:
+        b_start = pid_batch * MAX_SEQLEN
+        seqlen = MAX_SEQLEN
+
+    mask_m = offsets_m < seqlen
+    mask_k_half = offsets_k < (HEAD_DIM // 2)
+
+    full_offsets_m = b_start + offsets_m
+    full_mask_m = full_offsets_m < TOTAL_TOKENS
+
+    cos_ptrs = COS + full_offsets_m * stride_cos_m + offsets_k * stride_cos_k
+    sin_ptrs = SIN + full_offsets_m * stride_sin_m + offsets_k * stride_sin_k
+
+    if INTERLEAVED:
+        x_offsets_k = offsets_k * 2
+        x_offsets_k2 = offsets_k * 2 + 1
+    else:
+        x_offsets_k = offsets_k
+        x_offsets_k2 = offsets_k + (HEAD_DIM // 2)
+
+    x_ptrs = X + full_offsets_m * stride_xm + pid_head * stride_xhead + x_offsets_k * stride_xk
+    x2_ptrs = X + full_offsets_m * stride_xm + pid_head * stride_xhead + x_offsets_k2 * stride_xk
+
+    x1 = tl.load(x_ptrs, mask=full_mask_m[:, None] & mask_k_half[None, :])
+    x2 = tl.load(x2_ptrs, mask=full_mask_m[:, None] & mask_k_half[None, :])
+
+    cos = tl.load(cos_ptrs, mask=full_mask_m[:, None] & mask_k_half[None, :])
+    sin = tl.load(sin_ptrs, mask=full_mask_m[:, None] & mask_k_half[None, :])
+
+    if CONJUGATE:
+        x2_rot = -x2
+    else:
+        x2_rot = x2
+
+    out1 = x1 * cos - x2_rot * sin
+    out2 = x1 * sin + x2 * cos
+
+    out_ptrs = OUT + full_offsets_m * stride_om + pid_head * stride_ohead
+    tl.store(out_ptrs + x_offsets_k * stride_ok, out1, mask=full_mask_m[:, None] & mask_k_half[None, :])
+    tl.store(out_ptrs + x_offsets_k2 * stride_ok, out2, mask=full_mask_m[:, None] & mask_k_half[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: int = 0,
+    cu_seqlens: torch.Tensor = None,
+    *,
+    inplace: bool = False,
+    interleaved: bool = False,
+    conj: bool = False,
+):
+    batch, seqlen, nheads, headdim = x.shape
+    assert headdim <= 1024
+    assert cos.shape == sin.shape == (seqlen, headdim // 2)
+    assert x.dtype in [torch.float16, torch.bfloat16, torch.float32]
+
+    if inplace:
+        out = x
+    else:
+        out = torch.empty_like(x)
+
+    BLOCK_M = 1
+    while BLOCK_M * nheads * 4 * x.element_size() < 32768 and BLOCK_M * 2 <= seqlen:
+        BLOCK_M *= 2
+    BLOCK_K = min(triton.next_power_of_2(headdim // 2), 64)
+
+    grid = lambda META: (batch, nheads, triton.cdiv(seqlen, META["BLOCK_M"]))
+
+    TOTAL_TOKENS = batch * seqlen
+    max_seqlen = seqlen
+    is_variable_l = cu_seqlens is not None
+    HEAD_DIM = headdim
+
+    rotary_kernel[grid](
+        x,
+        cos,
+        sin,
+        out,
+        cu_seqlens,
+        seqlen,
+        x.stride(0),
+        x.stride(2),
+        x.stride(1),
+        x.stride(3),
+        cos.stride(0),
+        cos.stride(1),
+        sin.stride(0),
+        sin.stride(1),
+        out.stride(0),
+        out.stride(2),
+        out.stride(1),
+        out.stride(3),
+        TOTAL_TOKENS=TOTAL_TOKENS,
+        HEAD_DIM=HEAD_DIM,
+        MAX_SEQLEN=max_seqlen,
+        IS_VARIABLE_L=is_variable_l,
+        INTERLEAVED=interleaved,
+        CONJUGATE=conj,
+        BLOCK_M=BLOCK_M,
+        BLOCK_K=BLOCK_K,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_711258.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_711258.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_711258.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_711258.py.stdout
new file mode 100644
index 0000000..b9446b4
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_711258.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_711258 due to 
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_816058.py b/src/temp/gen/rotary_transform.py_gen_triton_code_816058.py
new file mode 100644
index 0000000..7376f11
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_816058.py
@@ -0,0 +1,289 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    X,
+    COS,
+    SIN,
+    OUT,
+    CU_SEQLENS,
+    seqlen_offsets,
+    stride_xb,
+    stride_xh,
+    stride_xm,
+    stride_xk,
+    stride_cosb,
+    stride_cosh,
+    stride_cosm,
+    stride_cosk,
+    stride_sinb,
+    stride_sinh,
+    stride_sinm,
+    stride_sink,
+    stride_ob,
+    stride_oh,
+    stride_om,
+    stride_ok,
+    max_seqlen,
+    rotary_dim,
+    seqlen,
+    interleaved: tl.constexpr,
+    conjugate: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if CU_SEQLENS is not None:
+        cu_seqlens_start = tl.load(CU_SEQLENS + pid_batch)
+        cu_seqlens_end = tl.load(CU_SEQLENS + pid_batch + 1)
+        seqlen = cu_seqlens_end - cu_seqlens_start
+    else:
+        cu_seqlens_start = 0
+
+    offset = tl.load(seqlen_offsets + pid_batch) if seqlen_offsets is not None else 0
+    seqlen = seqlen - offset
+    if pid_m >= seqlen:
+        return
+
+    rotary_dim_half = rotary_dim // 2
+    cols = tl.arange(0, BLOCK_K)
+    mask = cols < rotary_dim_half
+
+    offset_m = pid_m + offset
+    pos = offset_m.to(tl.int32)
+
+    if interleaved:
+        cos_offset = pos * stride_cosm + (cols * 2) * stride_cosk
+        sin_offset = pos * stride_sinm + (cols * 2) * stride_sink
+    else:
+        cos_offset = pos * stride_cosm + cols * stride_cosk
+        sin_offset = pos * stride_sinm + cols * stride_sink
+
+    cos = tl.load(COS + cos_offset, mask=mask, other=0.0)
+    sin = tl.load(SIN + sin_offset, mask=mask, other=0.0)
+
+    x_offset = (
+        pid_batch * stride_xb
+        + pid_head * stride_xh
+        + pid_m * stride_xm
+    )
+
+    if interleaved:
+        x_col0 = x_offset + (cols * 2) * stride_xk
+        x_col1 = x_offset + (cols * 2 + 1) * stride_xk
+        x0 = tl.load(X + x_col0, mask=mask, other=0.0)
+        x1 = tl.load(X + x_col1, mask=mask, other=0.0)
+    else:
+        x_col0 = x_offset + cols * stride_xk
+        x_col1 = x_offset + (cols + rotary_dim_half) * stride_xk
+        x0 = tl.load(X + x_col0, mask=mask, other=0.0)
+        x1 = tl.load(X + x_col1, mask=mask, other=0.0)
+
+    if conjugate:
+        x1 = -x1
+
+    out0 = x0 * cos - x1 * sin
+    out1 = x0 * sin + x1 * cos
+
+    out_offset = (
+        pid_batch * stride_ob
+        + pid_head * stride_oh
+        + pid_m * stride_om
+    )
+
+    if interleaved:
+        tl.store(OUT + out_offset + (cols * 2) * stride_ok, out0, mask=mask)
+        tl.store(OUT + out_offset + (cols * 2 + 1) * stride_ok, out1, mask=mask)
+    else:
+        tl.store(OUT + out_offset + cols * stride_ok, out0, mask=mask)
+        tl.store(OUT + out_offset + (cols + rotary_dim_half) * stride_ok, out1, mask=mask)
+
+    # Copy non-rotary dimensions
+    cols_rest_start = rotary_dim if not interleaved else rotary_dim * 2
+    cols_rest_end = max_seqlen
+    cols_rest = cols_rest_start + tl.arange(0, BLOCK_K)
+    mask_rest = cols_rest < cols_rest_end
+
+    if interleaved:
+        x_rest_offset = x_offset + cols_rest * stride_xk
+        out_rest_offset = out_offset + cols_rest * stride_ok
+    else:
+        x_rest_offset = x_offset + cols_rest * stride_xk
+        out_rest_offset = out_offset + cols_rest * stride_ok
+
+    x_rest = tl.load(X + x_rest_offset, mask=mask_rest, other=0.0)
+    tl.store(OUT + out_rest_offset, x_rest, mask=mask_rest)
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: torch.Tensor = None,
+    cu_seqlens: torch.Tensor = None,
+    max_seqlen: int = None,
+    interleaved: bool = False,
+    in_place: bool = False,
+    conjugate: bool = False,
+):
+    batch, head, seqlen, dim = x.shape
+    rotary_dim = cos.shape[-1]
+    assert cos.shape == sin.shape
+    assert rotary_dim * 2 <= dim, "Rotary dim must be <= half of hidden size"
+
+    if max_seqlen is None:
+        if cu_seqlens is None:
+            max_seqlen = seqlen
+        else:
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max().item()
+
+    BLOCK_M = 1
+    BLOCK_K = max(rotary_dim, 32)
+
+    grid = (batch, head, seqlen)
+
+    if not in_place:
+        out = torch.empty_like(x)
+    else:
+        out = x
+
+    rotary_kernel[grid](
+        x,
+        cos,
+        sin,
+        out,
+        cu_seqlens,
+        seqlen_offsets,
+        x.stride(0),
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        cos.stride(0),
+        cos.stride(1),
+        cos.stride(2),
+        cos.stride(3),
+        sin.stride(0),
+        sin.stride(1),
+        sin.stride(2),
+        sin.stride(3),
+        out.stride(0),
+        out.stride(1),
+        out.stride(2),
+        out.stride(3),
+        max_seqlen,
+        rotary_dim,
+        seqlen,
+        interleaved,
+        conjugate,
+        BLOCK_M,
+        BLOCK_K,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_816058.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_816058.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_816058.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_816058.py.stdout
new file mode 100644
index 0000000..316b76b
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_816058.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_816058 due to Dimension out of range (expected to be in range of [-2, 1], but got 2)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_824557.py b/src/temp/gen/rotary_transform.py_gen_triton_code_824557.py
new file mode 100644
index 0000000..42e4071
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_824557.py
@@ -0,0 +1,268 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+
+@triton.jit
+def rotary_kernel(
+    OUT, X, COS, SIN, CU_SEQLENS, SEQLEN_OFFSETS,
+    seqlen, nheads, rotary_dim, seqlen_ro, CACHE_KEY_SEQLEN,
+    stride_out_batch, stride_out_seqlen, stride_out_nheads, stride_out_headdim,
+    stride_x_batch, stride_x_seqlen, stride_x_nheads, stride_x_headdim,
+    BLOCK_K: tl.constexpr, IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr, INTERLEAVED: tl.constexpr, CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+    rotary_dim_half = rotary_dim // 2
+
+    if not IS_VARLEN:
+        X = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        OUT = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seqlen = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        X = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        OUT = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= seqlen:
+        return
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    rk = tl.arange(0, BLOCK_K)
+    rk_half = tl.arange(0, BLOCK_K // 2)
+
+    if not INTERLEAVED:
+        X = X + (rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim)
+        COS = COS + (rm_cs[:, None] * rotary_dim_half + rk_half[None, :])
+        SIN = SIN + (rm_cs[:, None] * rotary_dim_half + rk_half[None, :])
+        cos = tl.load(
+            COS, mask=(rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half), other=1.0
+        ).to(tl.float32)
+        sin = tl.load(
+            SIN, mask=(rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half), other=0.0
+        ).to(tl.float32)
+        x0 = tl.load(
+            X, mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half), other=0.0
+        ).to(tl.float32)
+        x1 = tl.load(
+            X + rotary_dim_half * stride_x_headdim,
+            mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half),
+            other=0.0,
+        ).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        o0 = x0 * cos - x1 * sin
+        o1 = x0 * sin + x1 * cos
+        OUT = OUT + (rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim)
+        tl.store(OUT, o0, mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half))
+        tl.store(
+            OUT + rotary_dim_half * stride_out_headdim,
+            o1,
+            mask=(rm[:, None] < seqlen) & (rk_half[None, :] < rotary_dim_half),
+        )
+    else:
+        rk_swap = rk + ((rk + 1) % 2) * 2 - 1
+        rk_repeat = tl.arange(0, BLOCK_K) // 2
+        X0 = X + (rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim)
+        X1 = X + (rm[:, None] * stride_x_seqlen + rk_swap[None, :] * stride_x_headdim)
+        COS = COS + (rm_cs[:, None] * rotary_dim_half + rk_repeat[None, :])
+        SIN = SIN + (rm_cs[:, None] * rotary_dim_half + rk_repeat[None, :])
+        cos = tl.load(
+            COS,
+            mask=(rm_cs[:, None] < seqlen_ro) & (rk_repeat[None, :] < rotary_dim_half),
+            other=1.0,
+        ).to(tl.float32)
+        sin = tl.load(
+            SIN,
+            mask=(rm_cs[:, None] < seqlen_ro) & (rk_repeat[None, :] < rotary_dim_half),
+            other=0.0,
+        ).to(tl.float32)
+        x0 = tl.load(X0, mask=(rm[:, None] < seqlen) & (rk[None, :] < rotary_dim), other=0.0).to(
+            tl.float32
+        )
+        x1 = tl.load(
+            X1, mask=(rm[:, None] < seqlen) & (rk_swap[None, :] < rotary_dim), other=0.0
+        ).to(tl.float32)
+        if CONJUGATE:
+            sin = -sin
+        x0_cos = x0 * cos
+        x1_sin = x1 * sin
+        out = tl.where(rk[None, :] % 2 == 0, x0_cos - x1_sin, x0_cos + x1_sin)
+        OUT = OUT + (rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim)
+        tl.store(OUT, out, mask=(rm[:, None] < seqlen) & (rk[None, :] < rotary_dim))
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved=False,
+    inplace=False,
+    conjugate=False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None, "If cu_seqlens is passed in, then max_seqlen must be passed"
+        total_seqlen, nheads, headdim = x.shape
+        batch_p_1 = cu_seqlens.shape[0]
+        batch = batch_p_1 - 1
+        seqlen = max_seqlen
+    seqlen_ro, rotary_dim = cos.shape
+    assert sin.shape == cos.shape
+    rotary_dim *= 2
+    assert rotary_dim <= headdim, "rotary_dim must be <= headdim"
+    assert headdim <= 256, "Only support headdim <= 256"
+    assert seqlen_ro >= seqlen, "seqlen_ro must be >= seqlen"
+
+    assert (
+        cos.dtype == sin.dtype
+    ), f"cos and sin must have the same dtype, got {cos.dtype} and {sin.dtype}"
+    assert (
+        x.dtype == cos.dtype
+    ), f"Input and cos/sin must have the same dtype, got {x.dtype} and {cos.dtype}"
+
+    cos, sin = cos.contiguous(), sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        assert seqlen_offsets.dtype in [torch.int32, torch.int64]
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert seqlen_offsets + seqlen <= seqlen_ro
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = (
+        32
+        if rotary_dim <= 32
+        else (64 if rotary_dim <= 64 else (128 if rotary_dim <= 128 else 256))
+    )
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)  # noqa
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+
+    rotary_kernel[grid](
+        output, x, cos, sin, cu_seqlens, seqlen_offsets,
+        seqlen, nheads, rotary_dim, seqlen_ro, seqlen // 128,
+        output.stride(0) if not is_varlen else 0,
+        output.stride(-3), output.stride(-2), output.stride(-1),
+        x.stride(0) if not is_varlen else 0,
+        x.stride(-3), x.stride(-2), x.stride(-1),
+        BLOCK_K, isinstance(seqlen_offsets, torch.Tensor),
+        is_varlen, interleaved, conjugate, BLOCK_M,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_824557.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_824557.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_824557.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_824557.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_824557.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_840463.py b/src/temp/gen/rotary_transform.py_gen_triton_code_840463.py
new file mode 100644
index 0000000..9740ccb
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_840463.py
@@ -0,0 +1,228 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    X, COS, SIN, CU_SEQLENS, SEQLENS, OUT,
+    stride_batch, stride_seqlen, stride_head, stride_dim,
+    rotary_dim, max_seqlen, total_seqlens,
+    nheads, seqlen_ro, interleaved, conj, BLOCK_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if pid_batch >= stride_batch:
+        return
+    if pid_head >= nheads:
+        return
+
+    if CU_SEQLENS is not None:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        seq_end = tl.load(CU_SEQLENS + pid_batch + 1)
+        seqlen_i = seq_end - seq_start
+    else:
+        seq_start = pid_batch * max_seqlen
+        seqlen_i = tl.load(SEQLENS + pid_batch) if SEQLENS is not None else max_seqlen
+
+    if pid_m >= seqlen_i:
+        return
+
+    offset_m = seq_start + pid_m
+
+    k_id = tl.arange(0, rotary_dim // 2)
+    rotary_dim_half = rotary_dim // 2
+
+    for k in range(0, rotary_dim_half, BLOCK_SIZE_M):
+        k_idx = k + tl.arange(0, BLOCK_SIZE_M)
+        mask = k_idx < rotary_dim_half
+
+        pos_m = pid_m
+
+        cos_idx = pos_m * stride_seqlen + k_idx * 2
+        cos_offset = COS + cos_idx
+        cos0 = tl.load(cos_offset, mask=mask)
+        cos1 = tl.load(cos_offset + 1, mask=mask)
+
+        sin_idx = pos_m * stride_seqlen + k_idx * 2
+        sin_offset = SIN + sin_idx
+        sin0 = tl.load(sin_offset, mask=mask)
+        sin1 = tl.load(sin_offset + 1, mask=mask)
+
+        if interleaved:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + k_idx * 2
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + k_idx * 2 + 1
+            x0 = tl.load(X + x_idx0, mask=mask)
+            x1 = tl.load(X + x_idx1, mask=mask)
+            if conj:
+                x1 = -x1
+            out0 = x0 * cos0 - x1 * sin0
+            out1 = x0 * sin1 + x1 * cos1
+            tl.store(OUT + x_idx0, out0, mask=mask)
+            tl.store(OUT + x_idx1, out1, mask=mask)
+        else:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + k_idx + rotary_dim_half
+            x0 = tl.load(X + x_idx0, mask=mask)
+            x1 = tl.load(X + x_idx1, mask=mask)
+            if conj:
+                x1 = -x1
+            out0 = x0 * cos0 - x1 * sin0
+            out1 = x0 * sin1 + x1 * cos1
+            tl.store(OUT + x_idx0, out0, mask=mask)
+            tl.store(OUT + x_idx1, out1, mask=mask)
+
+    if IS_EVEN_K:
+        return
+
+    k_offset = rotary_dim
+    total_dim = stride_dim
+    for d in range(rotary_dim, total_dim):
+        idx = offset_m * stride_seqlen + pid_head * stride_head + d
+        val = tl.load(X + idx)
+        tl.store(OUT + idx, val)
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seq_offset: int = 0,
+    cu_seqlens: torch.Tensor = None,
+    seqlens: torch.Tensor = None,
+    rotary_dim: int = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+):
+    batch, seqlen, nheads, headdim = x.shape
+    rotary_dim = rotary_dim or headdim
+
+    assert rotary_dim % 2 == 0
+    assert headdim >= rotary_dim
+    assert cos.shape == (seqlen, rotary_dim // 2 * 2)
+    assert sin.shape == (seqlen, rotary_dim // 2 * 2)
+
+    if not inplace:
+        out = torch.empty_like(x)
+    else:
+        out = x
+
+    BLOCK_SIZE_M = min(max(triton.next_power_of_2(rotary_dim // 2), 16), 64)
+
+    grid = lambda META: (batch, nheads, triton.cdiv(seqlen, 1))
+
+    rotary_kernel[grid](
+        x, cos, sin, cu_seqlens, seqlens, out,
+        x.stride(0), x.stride(1), x.stride(2), x.stride(3),
+        rotary_dim, seqlen, batch * seqlen,
+        nheads, seqlen, interleaved, conjugate, BLOCK_SIZE_M,
+        IS_EVEN_K=(headdim == rotary_dim),
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_840463.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_840463.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_840463.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_840463.py.stdout
new file mode 100644
index 0000000..b7a17ee
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_840463.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_840463 due to 
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_843724.py b/src/temp/gen/rotary_transform.py_gen_triton_code_843724.py
new file mode 100644
index 0000000..8230c46
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_843724.py
@@ -0,0 +1,237 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    X, COS, SIN, CU_SEQLENS, SEQLENS, OUT,
+    stride_batch, stride_seqlen, stride_head, stride_dim,
+    rotary_dim, max_seqlen, total_seqlens,
+    nheads, seqlen_ro, interleaved, conj, BLOCK_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if pid_batch >= stride_batch:
+        return
+    if pid_head >= nheads:
+        return
+
+    if CU_SEQLENS is not None:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        seq_end = tl.load(CU_SEQLENS + pid_batch + 1)
+        seqlen_i = seq_end - seq_start
+    else:
+        seq_start = pid_batch * max_seqlen
+        seqlen_i = tl.load(SEQLENS + pid_batch) if SEQLENS is not None else max_seqlen
+
+    if pid_m >= seqlen_i:
+        return
+
+    offset_m = seq_start + pid_m
+
+    rotary_dim_half = rotary_dim // 2
+    BLOCK_K = tl.min(BLOCK_SIZE_M, rotary_dim_half)
+    for k in range(0, rotary_dim_half, BLOCK_K):
+        k_idx = k + tl.arange(0, BLOCK_K)
+        mask = k_idx < rotary_dim_half
+
+        pos_m = pid_m
+        cos_idx = pos_m * rotary_dim + k_idx
+        cos_offset = COS + cos_idx
+        cos_val = tl.load(cos_offset, mask=mask).to(tl.float32)
+
+        sin_idx = pos_m * rotary_dim + k_idx
+        sin_offset = SIN + sin_idx
+        sin_val = tl.load(sin_offset, mask=mask).to(tl.float32)
+        if conj:
+            sin_val = -sin_val
+
+        if interleaved:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + 2 * k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + 2 * k_idx + 1
+            mask_2 = 2 * k_idx + 1 < rotary_dim
+            x0 = tl.load(X + x_idx0, mask=mask_2).to(tl.float32)
+            x1 = tl.load(X + x_idx1, mask=mask_2).to(tl.float32)
+            out0 = x0 * cos_val - x1 * sin_val
+            out1 = x0 * sin_val + x1 * cos_val
+            tl.store(OUT + x_idx0, out0, mask=mask_2)
+            tl.store(OUT + x_idx1, out1, mask=mask_2)
+        else:
+            x_idx0 = offset_m * stride_seqlen + pid_head * stride_head + k_idx
+            x_idx1 = offset_m * stride_seqlen + pid_head * stride_head + k_idx + rotary_dim_half
+            mask_half = k_idx + rotary_dim_half < rotary_dim
+            x0 = tl.load(X + x_idx0, mask=mask).to(tl.float32)
+            x1 = tl.load(X + x_idx1, mask=mask_half).to(tl.float32)
+            out0 = x0 * cos_val - x1 * sin_val
+            out1 = x0 * sin_val + x1 * cos_val
+            tl.store(OUT + x_idx0, out0, mask=mask)
+            tl.store(OUT + x_idx1, out1, mask=mask_half)
+
+    if IS_EVEN_K:
+        return
+
+    k_offset = rotary_dim
+    total_dim = stride_dim
+    for d in range(rotary_dim, total_dim):
+        idx = offset_m * stride_seqlen + pid_head * stride_head + d
+        val = tl.load(X + idx)
+        tl.store(OUT + idx, val.astype(X.dtype.element_ty))
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seq_offset: int = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    seqlens: Optional[torch.Tensor] = None,
+    rotary_dim: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    batch, seqlen, nheads, headdim = x.shape
+    rotary_dim = rotary_dim or headdim
+
+    assert rotary_dim % 2 == 0, "rotary_dim must be even"
+    assert headdim >= rotary_dim, "headdim must be >= rotary_dim"
+    assert cos.shape == (seqlen, rotary_dim), f"cos shape mismatch: {cos.shape} vs ({seqlen}, {rotary_dim})"
+    assert sin.shape == (seqlen, rotary_dim), f"sin shape mismatch: {sin.shape} vs ({seqlen}, {rotary_dim})"
+
+    if not inplace:
+        out = torch.empty_like(x)
+    else:
+        out = x
+
+    BLOCK_SIZE_M = min(max(triton.next_power_of_2(rotary_dim // 2), 16), 64)
+    grid = lambda META: (batch, nheads, triton.cdiv(seqlen, META["BLOCK_M"]))
+
+    rotary_kernel[grid](
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlens,
+        out,
+        x.stride(0),
+        x.stride(1),
+        x.stride(2),
+        x.stride(3),
+        rotary_dim,
+        seqlen,
+        batch * seqlen,
+        nheads,
+        seqlen,
+        interleaved,
+        conjugate,
+        BLOCK_SIZE_M,
+        IS_EVEN_K=(headdim == rotary_dim),
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_843724.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_843724.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_843724.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_843724.py.stdout
new file mode 100644
index 0000000..37747e0
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_843724.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_843724 due to cos shape mismatch: torch.Size([128, 16]) vs (128, 64)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_893238.py b/src/temp/gen/rotary_transform.py_gen_triton_code_893238.py
new file mode 100644
index 0000000..e9cb11d
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_893238.py
@@ -0,0 +1,295 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    X,
+    COS,
+    SIN,
+    OUT,
+    CU_SEQLENS,
+    seqlens,
+    stride_xb,
+    stride_xh,
+    stride_xm,
+    stride_xk,
+    stride_cos_m,
+    stride_cos_k,
+    stride_sin_m,
+    stride_sin_k,
+    stride_ob,
+    stride_oh,
+    stride_om,
+    stride_ok,
+    num_heads,
+    rotary_dim,
+    seqlen_offsets,
+    interleaved: tl.constexpr,
+    conjugate: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if CU_SEQLENS is not None:
+        seqlen_start = tl.load(CU_SEQLENS + pid_batch)
+        seqlen_end = tl.load(CU_SEQLENS + pid_batch + 1)
+        seq_len = seqlen_end - seqlen_start
+    else:
+        seqlen_start = 0
+        seq_len = tl.load(seqlens + pid_batch)
+
+    if pid_m * BLOCK_M >= seq_len:
+        return
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_k = tl.arange(0, BLOCK_K // 2)
+
+    if CU_SEQLENS is not None:
+        pos = seqlen_start + offs_m
+    else:
+        pos = seqlen_offsets + offs_m
+
+    mask_m = offs_m < seq_len
+    mask_k = offs_k < rotary_dim // 2
+
+    if not interleaved:
+        x0_ptrs = (
+            X
+            + pid_batch * stride_xb
+            + pid_head * stride_xh
+            + offs_m[:, None] * stride_xm
+            + offs_k[None, :] * 2 * stride_xk
+        )
+        x1_ptrs = x0_ptrs + stride_xk
+
+        cos_ptrs = COS + pos[:, None] * stride_cos_m + offs_k[None, :] * stride_cos_k
+        sin_ptrs = SIN + pos[:, None] * stride_sin_m + offs_k[None, :] * stride_sin_k
+
+        x0 = tl.load(x0_ptrs, mask=mask_m[:, None] & mask_k[None, :])
+        x1 = tl.load(x1_ptrs, mask=mask_m[:, None] & mask_k[None, :])
+        cos = tl.load(cos_ptrs, mask=mask_m[:, None] & mask_k[None, :])
+        sin = tl.load(sin_ptrs, mask=mask_m[:, None] & mask_k[None, :])
+
+        if conjugate:
+            sin = -sin
+
+        out0 = x0 * cos - x1 * sin
+        out1 = x0 * sin + x1 * cos
+
+        out0_ptrs = (
+            OUT
+            + pid_batch * stride_ob
+            + pid_head * stride_oh
+            + offs_m[:, None] * stride_om
+            + offs_k[None, :] * 2 * stride_ok
+        )
+        out1_ptrs = out0_ptrs + stride_ok
+
+        tl.store(out0_ptrs, out0, mask=mask_m[:, None] & mask_k[None, :])
+        tl.store(out1_ptrs, out1, mask=mask_m[:, None] & mask_k[None, :])
+    else:
+        x_real_ptrs = (
+            X
+            + pid_batch * stride_xb
+            + pid_head * stride_xh
+            + offs_m[:, None] * stride_xm
+            + offs_k[None, :] * stride_xk * 2
+        )
+        x_imag_ptrs = x_real_ptrs + stride_xk
+
+        cos_ptrs = COS + pos[:, None] * stride_cos_m + offs_k[None, :] * stride_cos_k
+        sin_ptrs = SIN + pos[:, None] * stride_sin_m + offs_k[None, :] * stride_sin_k
+
+        x_real = tl.load(x_real_ptrs, mask=mask_m[:, None] & mask_k[None, :])
+        x_imag = tl.load(x_imag_ptrs, mask=mask_m[:, None] & mask_k[None, :])
+        cos = tl.load(cos_ptrs, mask=mask_m[:, None] & mask_k[None, :])
+        sin = tl.load(sin_ptrs, mask=mask_m[:, None] & mask_k[None, :])
+
+        if conjugate:
+            x_imag = -x_imag
+
+        out_real = x_real * cos - x_imag * sin
+        out_imag = x_real * sin + x_imag * cos
+
+        out_real_ptrs = (
+            OUT
+            + pid_batch * stride_ob
+            + pid_head * stride_oh
+            + offs_m[:, None] * stride_om
+            + offs_k[None, :] * stride_ok * 2
+        )
+        out_imag_ptrs = out_real_ptrs + stride_ok
+
+        tl.store(out_real_ptrs, out_real, mask=mask_m[:, None] & mask_k[None, :])
+        tl.store(out_imag_ptrs, out_imag, mask=mask_m[:, None] & mask_k[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: int = 0,
+    cu_seqlens: torch.Tensor = None,
+    max_seqlen: int = None,
+    interleaved: bool = False,
+    conjugate: bool = False,
+    inplace: bool = False,
+) -> torch.Tensor:
+    batch, seqlen, num_heads, head_dim = x.shape
+    rotary_dim = cos.shape[-1]
+    assert rotary_dim <= head_dim
+    assert rotary_dim % 2 == 0
+    assert cos.shape == (seqlen, rotary_dim)
+    assert sin.shape == (seqlen, rotary_dim)
+
+    BLOCK_K = 128
+    BLOCK_M = 64
+
+    grid = (batch, num_heads, triton.cdiv(seqlen, BLOCK_M))
+
+    if cu_seqlens is not None:
+        assert cu_seqlens.dtype == torch.int32
+        assert cu_seqlens.device == x.device
+        max_seqlen = cu_seqlens.diff().max().item()
+
+    if inplace:
+        out = x
+    else:
+        out = torch.empty_like(x)
+
+    rotary_kernel[grid](
+        x,
+        cos,
+        sin,
+        out,
+        cu_seqlens,
+        None if cu_seqlens is not None else torch.tensor([seqlen], dtype=torch.int32, device=x.device),
+        x.stride(0),
+        x.stride(2),
+        x.stride(1),
+        x.stride(3),
+        cos.stride(0),
+        cos.stride(1),
+        sin.stride(0),
+        sin.stride(1),
+        out.stride(0),
+        out.stride(2),
+        out.stride(1),
+        out.stride(3),
+        num_heads,
+        rotary_dim,
+        seqlen_offsets,
+        interleaved,
+        conjugate,
+        BLOCK_M=BLOCK_M,
+        BLOCK_K=BLOCK_K,
+    )
+
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_893238.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_893238.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_893238.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_893238.py.stdout
new file mode 100644
index 0000000..243dcf9
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_893238.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_893238 due to not enough values to unpack (expected 4, got 3)
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_915460.py b/src/temp/gen/rotary_transform.py_gen_triton_code_915460.py
new file mode 100644
index 0000000..06a368d
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_915460.py
@@ -0,0 +1,292 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+
+    if not IS_VARLEN:
+        current_batch_offset = pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        X_ptr = X + current_batch_offset
+        OUT_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+        seq_len = seqlen
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seq_len = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        X_ptr = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        OUT_ptr = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= seq_len:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rk = tl.arange(0, BLOCK_K)
+    rk_half = rk % (rotary_dim // 2)
+
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+
+    rotary_half = rotary_dim // 2
+
+    if not INTERLEAVED:
+        k0 = rk_half
+        k1 = k0 + rotary_half
+        mask_m = rm < seq_len
+        mask_m_cs = rm_cs < seqlen_ro
+
+        # first half
+        offset0 = rm[:, None] * stride_x_seqlen + k0[None, :] * stride_x_headdim
+        x0 = tl.load(X_ptr + offset0, mask=mask_m[:, None] & (k0[None, :] < rotary_half)).to(tl.float32)
+        cos0 = tl.load(COS + rm_cs[:, None] * rotary_half + k0[None, :],
+                       mask=mask_m_cs[:, None] & (k0[None, :] < rotary_half), other=1.0).to(tl.float32)
+        sin0 = tl.load(SIN + rm_cs[:, None] * rotary_half + k0[None, :],
+                       mask=mask_m_cs[:, None] & (k0[None, :] < rotary_half), other=0.0).to(tl.float32)
+
+        # second half
+        offset1 = rm[:, None] * stride_x_seqlen + k1[None, :] * stride_x_headdim
+        x1 = tl.load(X_ptr + offset1, mask=mask_m[:, None] & (k1[None, :] < rotary_dim)).to(tl.float32)
+
+        if CONJUGATE:
+            sin0 = -sin0
+        o0 = x0 * cos0 - x1 * sin0
+        o1 = x0 * sin0 + x1 * cos0
+
+        tl.store(OUT_ptr + offset0, o0, mask=mask_m[:, None] & (k0[None, :] < rotary_half))
+        tl.store(OUT_ptr + offset1, o1, mask=mask_m[:, None] & (k1[None, :] < rotary_dim))
+    else:
+        rk_half = rk // 2
+        mask_m = rm < seq_len
+        mask_m_cs = rm_cs < seqlen_ro
+
+        x_offsets = rm[:, None] * stride_x_seqlen + rk[None, :] * stride_out_headdim
+        cos_sin_offsets = rm_cs[:, None] * rotary_half + rk_half[None, :]
+
+        x = tl.load(X_ptr + x_offsets, mask=mask_m[:, None] & (rk[None, :] < rotary_dim)).to(tl.float32)
+
+        cos = tl.load(COS + cos_sin_offsets,
+                      mask=mask_m_cs[:, None] & (rk_half[None, :] < rotary_half), other=1.0).to(tl.float32)
+        sin = tl.load(SIN + cos_sin_offsets,
+                      mask=mask_m_cs[:, None] & (rk_half[None, :] < rotary_half), other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+
+        x0 = tl.where((rk[None, :] % 2) == 0, x, 0)
+        x1 = tl.where((rk[None, :] % 2) == 1, x, 0)
+
+        out = x0 * cos + x1 * sin
+        tl.store(OUT_ptr + x_offsets, out, mask=mask_m[:, None] & (rk[None, :] < rotary_dim))
+
+
+from typing import Union, Optional
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim
+    assert headdim <= 256
+
+    if not isinstance(seqlen_offsets, torch.Tensor):
+        assert isinstance(seqlen_offsets, int) and seqlen_offsets + seqlen <= seqlen_ro
+    else:
+        assert seqlen_offsets.shape == (batch,)
+        seqlen_offsets = seqlen_offsets.to(torch.int32)
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        seqlen_offsets = seqlen_offsets.contiguous()
+
+    output = torch.empty_like(x) if not inplace else x
+    if rotary_dim < headdim and not inplace:
+        output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+
+    BLOCK_K = max(32, triton.next_power_of_2(rotary_dim))
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    with torch.cuda.device(x.device.type):
+        rotary_kernel[grid](
+            output,
+            x,
+            cos,
+            sin,
+            cu_seqlens,
+            seqlen_offsets,
+            seqlen,
+            nheads,
+            rotary_dim,
+            seqlen_ro,
+            seqlen // 128,
+            output.stride(0) if not is_varlen else 0,
+            output.stride(-3),
+            output.stride(-2),
+            output.stride(-1),
+            x.stride(0) if not is_varlen else 0,
+            x.stride(-3),
+            x.stride(-2),
+            x.stride(-1),
+            BLOCK_K=BLOCK_K,
+            IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+            IS_VARLEN=is_varlen,
+            INTERLEAVED=interleaved,
+            CONJUGATE=conjugate,
+            BLOCK_M=BLOCK_M,
+        )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_915460.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_915460.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_915460.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_915460.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_915460.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_925133.py b/src/temp/gen/rotary_transform.py_gen_triton_code_925133.py
new file mode 100644
index 0000000..ca54784
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_925133.py
@@ -0,0 +1,303 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Union, Optional
+
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    seqlen,
+    nheads,
+    rotary_dim,
+    seqlen_ro,
+    CACHE_KEY_SEQLEN,
+    stride_out_batch,
+    stride_out_seqlen,
+    stride_out_nheads,
+    stride_out_headdim,
+    stride_x_batch,
+    stride_x_seqlen,
+    stride_x_nheads,
+    stride_x_headdim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+    pid_batch = tl.program_id(axis=1)
+    pid_head = tl.program_id(axis=2)
+    rotary_dim_half = rotary_dim // 2
+
+    if not IS_VARLEN:
+        x_ptr = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        o_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seq_len = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        x_ptr = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        o_ptr = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+    else_seq_len = seqlen
+    current_seqlen = tl.where(IS_VARLEN, seq_len, else_seq_len)
+
+    if pid_m * BLOCK_M >= current_seqlen:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    rk_half = tl.arange(0, BLOCK_K)
+
+    if not INTERLEAVED:
+        cos_ptr = COS + (rm_cs[:, None] * rotary_dim_half + rk_half[None, :])
+        sin_ptr = SIN + (rm_cs[:, None] * rotary_dim_half + rk_half[None, :])
+        mask_cos_sin = (rm_cs[:, None] < seqlen_ro) & (rk_half[None, :] < rotary_dim_half)
+        cos = tl.load(cos_ptr, mask=mask_cos_sin, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=mask_cos_sin, other=0.0).to(tl.float32)
+
+        left = x_ptr + (rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim)
+        right = x_ptr + (rm[:, None] * stride_x_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_x_headdim)
+        mask_lr = (rm[:, None] < current_seqlen) & (rk_half[None, :] < rotary_dim_half)
+
+        x0 = tl.load(left,  mask=mask_lr, other=0.0).to(tl.float32)
+        x1 = tl.load(right, mask=mask_lr, other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+        out0 = x0 * cos - x1 * sin
+        out1 = x0 * sin + x1 * cos
+
+        tl.store(
+            o_ptr + (rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim),
+            out0,
+            mask=mask_lr,
+        )
+        tl.store(
+            o_ptr + (rm[:, None] * stride_out_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_out_headdim),
+            out1,
+            mask=mask_lr,
+        )
+    else:
+        rk = tl.arange(0, 2 * BLOCK_K)
+        cos_ptr = COS + (rm_cs[:, None] * rotary_dim_half + (rk[None, :] // 2))
+        sin_ptr = SIN + (rm_cs[:, None] * rotary_dim_half + (rk[None, :] // 2))
+        mask_cos_sin = (rm_cs[:, None] < seqlen_ro) & (rk[None, :] < rotary_dim)
+        cos = tl.load(cos_ptr, mask=mask_cos_sin, other=1.0).to(tl.float32)
+        sin = tl.load(sin_ptr, mask=mask_cos_sin, other=0.0).to(tl.float32)
+
+        idx = x_ptr + (rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim)
+        mask_idx = (rm[:, None] < current_seqlen) & (rk[None, :] < rotary_dim)
+        x0 = tl.load(idx, mask=mask_idx, other=0.0).to(tl.float32)
+
+        idx1 = x_ptr + (rm[:, None] * stride_x_seqlen + (rk[None, :] ^ 1) * stride_x_headdim)
+        x1 = tl.load(idx1, mask=mask_idx, other=0.0).to(tl.float32)
+
+        if CONJUGATE:
+            sin = -sin
+        out = tl.where(rk[None, :] % 2 == 0, x0 * cos - x1 * sin, x0 * sin + x1 * cos)
+
+        tl.store(
+            o_ptr + (rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim),
+            out,
+            mask=mask_idx,
+        )
+    # copy tail
+    if rotary_dim < x.shape[-1]:  # headdim in signature is rotary_dim, actual head dim is X.shape[-1]
+        actual_headdim = x.shape[-1]
+    else:
+        actual_headdim = rotary_dim
+    if rotary_dim < actual_headdim:
+        cols_tail = rotary_dim + tl.arange(0, BLOCK_K)
+        mask_tail = (cols_tail < actual_headdim) & (rm[:, None] < current_seqlen)
+        tail_src = x_ptr + (rm[:, None] * stride_x_seqlen + cols_tail[None, :] * stride_x_headdim)
+        tail_val = tl.load(tail_src, mask=mask_tail)
+        tail_dst = o_ptr + (rm[:, None] * stride_out_seqlen + cols_tail[None, :] * stride_out_headdim)
+        tl.store(tail_dst, tail_val, mask=mask_tail)
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None, "max_seqlen is required when cu_seqlens provided"
+        total_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        seqlen = max_seqlen
+
+    seqlen_ro, rotary_half = cos.shape
+    rotary_dim = rotary_half * 2
+    assert rotary_dim <= headdim
+    assert cos.dtype == sin.dtype == x.dtype
+    cos, sin = cos.contiguous(), sin.contiguous()
+
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,)
+        seqlen_offsets = seqlen_offsets.contiguous()
+    else:
+        assert seqlen_offsets + seqlen <= seqlen_ro
+
+    output = x if inplace else torch.empty_like(x)
+    if rotary_dim < headdim and not inplace:
+        if not is_varlen:
+            output[..., rotary_dim:].copy_(x[..., rotary_dim:])  # shape (B, S, H, D)
+        else:
+            output[:, :, rotary_dim:].copy_(x[:, :, rotary_dim:])  # shape (ΣS, H, D)
+
+    BLOCK_K = {32: 32, 64: 64, 128: 128, 256: 256}.get(
+        triton.next_power_of_2(rotary_half), 256
+    )
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    rotary_kernel[grid](
+        output,
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        seqlen_offsets,
+        seqlen,
+        nheads,
+        rotary_dim,
+        seqlen_ro,
+        seqlen // 128,
+        output.stride(0) if not is_varlen else 0,
+        output.stride(-3),
+        output.stride(-2),
+        output.stride(-1),
+        x.stride(0)           if not is_varlen else 0,
+        x.stride(-3),
+        x.stride(-2),
+        x.stride(-1),
+        BLOCK_K=BLOCK_K,
+        IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+        IS_VARLEN=is_varlen,
+        INTERLEAVED=interleaved,
+        CONJUGATE=conjugate,
+        BLOCK_M=BLOCK_M,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_925133.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_925133.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_925133.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_925133.py.stdout
new file mode 100644
index 0000000..0a3302c
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_925133.py.stdout
@@ -0,0 +1,15 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_925133 due to at 42:41:
+    rotary_dim_half = rotary_dim // 2
+
+    if not IS_VARLEN:
+        x_ptr = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        o_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seq_len = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        x_ptr = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        o_ptr = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+    else_seq_len = seqlen
+    current_seqlen = tl.where(IS_VARLEN, seq_len, else_seq_len)
+                                         ^
+NameError('seq_len is not defined')
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_939610.py b/src/temp/gen/rotary_transform.py_gen_triton_code_939610.py
new file mode 100644
index 0000000..340efbe
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_939610.py
@@ -0,0 +1,279 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Optional, Union
+
+@triton.jit
+def rotary_kernel(
+    OUT, X, COS, SIN, CU_SEQLENS, SEQLEN_OFFSETS,
+    seqlen, nheads, rotary_dim, seqlen_ro, CACHE_KEY_SEQLEN,
+    stride_out_batch, stride_out_seqlen, stride_out_nheads, stride_out_headdim,
+    stride_x_batch, stride_x_seqlen, stride_x_nheads, stride_x_headdim,
+    BLOCK_K: tl.constexpr,
+    IS_SEQLEN_OFFSETS_TENSOR: tl.constexpr,
+    IS_VARLEN: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_batch = tl.program_id(1)
+    pid_head = tl.program_id(2)
+
+    if not IS_VARLEN:
+        x_base = X + pid_batch * stride_x_batch + pid_head * stride_x_nheads
+        out_base = OUT + pid_batch * stride_out_batch + pid_head * stride_out_nheads
+        seqlen_i = seqlen
+    else:
+        start_idx = tl.load(CU_SEQLENS + pid_batch)
+        seqlen_i = tl.load(CU_SEQLENS + pid_batch + 1) - start_idx
+        x_base = X + start_idx * stride_x_seqlen + pid_head * stride_x_nheads
+        out_base = OUT + start_idx * stride_out_seqlen + pid_head * stride_out_nheads
+
+    if pid_m * BLOCK_M >= seqlen_i:
+        return
+
+    rm = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    rm_mask = rm < seqlen_i
+
+    if not IS_SEQLEN_OFFSETS_TENSOR:
+        rm_cs = rm + SEQLEN_OFFSETS
+    else:
+        rm_cs = rm + tl.load(SEQLEN_OFFSETS + pid_batch)
+    rm_cs_mask = rm_cs < seqlen_ro
+
+    rotary_dim_half = rotary_dim // 2
+
+    if not INTERLEAVED:
+        rk_half = tl.arange(0, BLOCK_K // 2)
+        rk_mask = rk_half < rotary_dim_half
+
+        offs_xr = x_base + rm[:, None] * stride_x_seqlen + rk_half[None, :] * stride_x_headdim
+        xr = tl.load(offs_xr, mask=rm_mask[:, None] & rk_mask[None, :], other=0.0).to(tl.float32)
+
+        offs_xi = x_base + rm[:, None] * stride_x_seqlen + (rk_half[None, :] + rotary_dim_half) * stride_x_headdim
+        xi = tl.load(offs_xi, mask=rm_mask[:, None] & rk_mask[None, :], other=0.0).to(tl.float32)
+
+        offs_cs = rm_cs[:, None] * rotary_dim_half + rk_half[None, :]
+        cos = tl.load(COS + offs_cs, mask=rm_cs_mask[:, None] & rk_mask[None, :], other=1.0).to(tl.float32)
+        sin_val = tl.load(SIN + offs_cs, mask=rm_cs_mask[:, None] & rk_mask[None, :], other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin_val = -sin_val
+
+        or_ = xr * cos - xi * sin_val
+        oi = xr * sin_val + xi * cos
+
+        tl.store(out_base + rm[:, None] * stride_out_seqlen + rk_half[None, :] * stride_out_headdim,
+                 or_, mask=rm_mask[:, None] & rk_mask[None, :])
+        tl.store(out_base + rm[:, None] * stride_out_seqlen +
+                 (rk_half[None, :] + rotary_dim_half) * stride_out_headdim,
+                 oi, mask=rm_mask[:, None] & rk_mask[None, :])
+    else:
+        rk = tl.arange(0, BLOCK_K)
+        rk_mask = rk < rotary_dim
+        rk_half_idx = rk // 2
+        rk_mask_half = rk_half_idx < rotary_dim_half
+        rk_swap = rk + ((rk + 1) % 2) * 2 - 1
+
+        offs_x0 = x_base + rm[:, None] * stride_x_seqlen + rk[None, :] * stride_x_headdim
+        x0 = tl.load(offs_x0, mask=rm_mask[:, None] & rk_mask[None, :], other=0.0).to(tl.float32)
+
+        offs_x1 = x_base + rm[:, None] * stride_x_seqlen + rk_swap[None, :] * stride_x_headdim
+        x1 = tl.load(offs_x1, mask=rm_mask[:, None] & rk_swap[None, :] < rotary_dim, other=0.0).to(tl.float32)
+
+        offs_cs = rm_cs[:, None] * rotary_dim_half + rk_half_idx[None, :]
+        cos = tl.load(COS + offs_cs, mask=rm_cs_mask[:, None] & rk_mask_half[None, :], other=1.0).to(tl.float32)
+        sin_val = tl.load(SIN + offs_cs, mask=rm_cs_mask[:, None] & rk_mask_half[None, :], other=0.0).to(tl.float32)
+        if CONJUGATE:
+            sin_val = -sin_val
+
+        out_even = x0 * cos - x1 * sin_val
+        out_odd = x0 * sin_val + x1 * cos
+
+        out_offs = out_base + rm[:, None] * stride_out_seqlen + rk[None, :] * stride_out_headdim
+        out_val = tl.where(rk[None, :] % 2 == 0, out_even, out_odd)
+        tl.store(out_offs, out_val, mask=rm_mask[:, None] & rk_mask[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    is_varlen = cu_seqlens is not None
+    if not is_varlen:
+        batch, seqlen, nheads, headdim = x.shape
+    else:
+        assert max_seqlen is not None, "Must provide max_seqlen with cu_seqlens"
+        total_seqlen, nheads, headdim = x.shape
+        seqlen = max_seqlen
+        batch = cu_seqlens.shape[0] - 1
+
+    assert cos.shape == sin.shape
+    seqlen_ro, rotary_dim_half = cos.shape
+    rotary_dim = rotary_dim_half * 2
+    assert rotary_dim <= headdim
+    assert seqlen_ro >= seqlen + (seqlen_offsets.max().item()
+                                  if isinstance(seqlen_offsets, torch.Tensor)
+                                  else seqlen_offsets)
+    assert x.dtype == cos.dtype == sin.dtype, "All tensors must share dtype"
+
+    cos, sin = cos.contiguous(), sin.contiguous()
+    if isinstance(seqlen_offsets, torch.Tensor):
+        assert seqlen_offsets.shape == (batch,), "seqlen_offsets must be 1-D tensor of length batch"
+        seqlen_offsets = seqlen_offsets.int().contiguous()
+    else:
+        seqlen_offsets = int(seqlen_offsets)
+
+    output = x if inplace else torch.empty_like(x)
+    if not inplace and rotary_dim < headdim:
+        if not is_varlen:
+            output[..., rotary_dim:].copy_(x[..., rotary_dim:])
+        else:
+            output[:, :, rotary_dim:].copy_(x[:, :, rotary_dim:])
+
+    BLOCK_K = 32 if rotary_dim <= 32 else \
+              64 if rotary_dim <= 64 else \
+             128 if rotary_dim <= 128 else 256
+    BLOCK_M = 4 if interleaved else (8 if rotary_dim <= 64 else 4)
+    grid = lambda META: (triton.cdiv(seqlen, META["BLOCK_M"]), batch, nheads)
+
+    cu_seqlens_ptr = cu_seqlens.int().contiguous() if is_varlen else None
+
+    with torch.cuda.device(x.device):
+        rotary_kernel[grid](
+            output,
+            x,
+            cos,
+            sin,
+            cu_seqlens_ptr,
+            seqlen_offsets,
+            seqlen,
+            nheads,
+            rotary_dim,
+            seqlen_ro,
+            seqlen // 128,  # dummy
+            output.stride(0) if not is_varlen else 0,
+            output.stride(-2 if is_varlen else -3),
+            output.stride(-1 if is_varlen else -2),
+            output.stride(-1),
+            x.stride(0) if not is_varlen else 0,
+            x.stride(-2 if is_varlen else -3),
+            x.stride(-1 if is_varlen else -2),
+            x.stride(-1),
+            BLOCK_K=BLOCK_K,
+            IS_SEQLEN_OFFSETS_TENSOR=isinstance(seqlen_offsets, torch.Tensor),
+            IS_VARLEN=is_varlen,
+            INTERLEAVED=interleaved,
+            CONJUGATE=conjugate,
+            BLOCK_M=BLOCK_M,
+        )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_939610.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_939610.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_939610.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_939610.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_939610.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_946209.py b/src/temp/gen/rotary_transform.py_gen_triton_code_946209.py
new file mode 100644
index 0000000..dd2d7e9
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_946209.py
@@ -0,0 +1,284 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLENS,
+    stride_x_batch,
+    stride_x_head,
+    stride_x_m,
+    stride_x_n,
+    stride_cos_m,
+    stride_cos_n,
+    stride_sin_m,
+    stride_sin_n,
+    stride_out_batch,
+    stride_out_head,
+    stride_out_m,
+    stride_out_n,
+    batch_size,
+    head_num,
+    seq_len,
+    H,
+    D,
+    HID,
+    stride_h,
+    stride_d,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    INTERLEAVED: tl.constexpr,
+    CONJUGATE: tl.constexpr,
+    DTYPE: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if pid_batch >= batch_size or pid_head >= head_num:
+        return
+
+    seq_start = 0
+    cur_seq_len = seq_len
+    if CU_SEQLENS is not None:
+        seq_start = tl.load(CU_SEQLENS + pid_batch)
+        cur_seq_len = tl.load(SEQLENS + pid_batch)
+    elif seq_len > 0:
+        cur_seq_len = seq_len
+    else:
+        cur_seq_len = seq_len
+
+    if pid_m * BLOCK_M >= cur_seq_len:
+        return
+
+    offs_m = pid_m * BLOCK_M + tl.arange(0, BLOCK_M)
+    offs_n = tl.arange(0, BLOCK_N)
+    mask_m = offs_m < cur_seq_len
+
+    cos_ptrs = COS + (seq_start + offs_m[:, None]) * stride_cos_m + offs_n[None, :] * stride_cos_n
+    sin_ptrs = SIN + (seq_start + offs_m[:, None]) * stride_sin_m + offs_n[None, :] * stride_sin_n
+
+    cos = tl.load(cos_ptrs, mask=mask_m[:, None], other=0.0)
+    sin = tl.load(sin_ptrs, mask=mask_m[:, None], other=0.0)
+
+    x_base_ptr = X + pid_batch * stride_x_batch + pid_head * stride_x_head
+    out_base_ptr = OUT + pid_batch * stride_out_batch + pid_head * stride_out_head
+
+    if INTERLEAVED:
+        offs_d = 2 * offs_n
+        x_ptr0 = x_base_ptr + offs_m[:, None] * stride_x_m + offs_d[None, :] * stride_x_n
+        x_ptr1 = x_base_ptr + offs_m[:, None] * stride_x_m + (offs_d + 1)[None, :] * stride_x_n
+
+        x0 = tl.load(x_ptr0, mask=mask_m[:, None], other=0.0).to(DTYPE)
+        x1 = tl.load(x_ptr1, mask=mask_m[:, None], other=0.0).to(DTYPE)
+
+        c = cos
+        s = sin if not CONJUGATE else -sin
+        y0 = x0 * c - x1 * s
+        y1 = x0 * s + x1 * c
+
+        tl.store(out_base_ptr + offs_m[:, None] * stride_out_m + offs_d[None, :] * stride_out_n, y0, mask=mask_m[:, None])
+        tl.store(out_base_ptr + offs_m[:, None] * stride_out_m + (offs_d + 1)[None, :] * stride_out_n, y1, mask=mask_m[:, None])
+    else:
+        offs_d0 = offs_n
+        offs_d1 = offs_n + HID
+
+        x_ptr0 = x_base_ptr + offs_m[:, None] * stride_x_m + offs_d0[None, :] * stride_x_n
+        x_ptr1 = x_base_ptr + offs_m[:, None] * stride_x_m + offs_d1[None, :] * stride_x_n
+
+        x0 = tl.load(x_ptr0, mask=mask_m[:, None], other=0.0).to(DTYPE)
+        x1 = tl.load(x_ptr1, mask=mask_m[:, None], other=0.0).to(DTYPE)
+
+        c = cos
+        s = sin if not CONJUGATE else -sin
+        y0 = x0 * c - x1 * s
+        y1 = x0 * s + x1 * c
+
+        tl.store(out_base_ptr + offs_m[:, None] * stride_out_m + offs_d0[None, :] * stride_out_n, y0, mask=mask_m[:, None])
+        tl.store(out_base_ptr + offs_m[:, None] * stride_out_m + offs_d1[None, :] * stride_out_n, y1, mask=mask_m[:, None])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    cu_seqlens: torch.Tensor = None,
+    max_seqlen: int = 0,
+) -> torch.Tensor:
+    assert x.dim() == 4
+    batch_size, head_num, seq_len, dim = x.shape
+    assert dim % 2 == 0
+    assert cos.dim() == 4 and sin.dim() == 4
+    interleaved = False
+    conjugate = False
+
+    dtype = x.dtype
+    if dtype == torch.float16:
+        triton_dtype = tl.float16
+    elif dtype == torch.float32:
+        triton_dtype = tl.float32
+    else:
+        raise ValueError("Unsupported dtype")
+
+    out = torch.empty_like(x)
+
+    HID = dim // 2
+    stride_x_batch = x.stride(0)
+    stride_x_head = x.stride(1)
+    stride_x_m = x.stride(2)
+    stride_x_n = x.stride(3)
+    stride_cos_m = cos.stride(2)
+    stride_cos_n = cos.stride(3)
+    stride_sin_m = sin.stride(2)
+    stride_sin_n = sin.stride(3)
+    stride_out_batch = out.stride(0)
+    stride_out_head = out.stride(1)
+    stride_out_m = out.stride(2)
+    stride_out_n = out.stride(3)
+
+    BLOCK_M = 32
+    BLOCK_N = HID
+    grid = (triton.cdiv(batch_size, 1), triton.cdiv(head_num, 1), triton.cdiv(seq_len, BLOCK_M))
+
+    rotary_kernel[grid](
+        out,
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        None,
+        stride_x_batch,
+        stride_x_head,
+        stride_x_m,
+        stride_x_n,
+        stride_cos_m,
+        stride_cos_n,
+        stride_sin_m,
+        stride_sin_n,
+        stride_out_batch,
+        stride_out_head,
+        stride_out_m,
+        stride_out_n,
+        batch_size,
+        head_num,
+        seq_len,
+        None,
+        dim,
+        HID,
+        None,
+        None,
+        BLOCK_M=BLOCK_M,
+        BLOCK_N=BLOCK_N,
+        INTERLEAVED=interleaved,
+        CONJUGATE=conjugate,
+        DTYPE=triton_dtype,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_946209.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_946209.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_946209.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_946209.py.stdout
new file mode 100644
index 0000000..6ab1474
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_946209.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_946209 due to 
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_99563.py b/src/temp/gen/rotary_transform.py_gen_triton_code_99563.py
new file mode 100644
index 0000000..b97081b
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_99563.py
@@ -0,0 +1,279 @@
+
+import torch
+import triton
+import triton.language as tl
+from typing import Union, Optional
+
+
+@triton.jit
+def rotary_kernel(
+    X,
+    COS,
+    SIN,
+    OUT,
+    CU_SEQLENS,
+    SEQLEN_OFFSETS,
+    stride_xb,
+    stride_xh,
+    stride_xm,
+    stride_xk,
+    stride_cosm,
+    stride_cosk,
+    stride_sinm,
+    stride_sink,
+    stride_ob,
+    stride_oh,
+    stride_om,
+    stride_ok,
+    max_seqlen,
+    rotary_dim,
+    seqlen,
+    interleaved: tl.constexpr,
+    conjugate: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+):
+    pid_b = tl.program_id(0)
+    pid_h = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if CU_SEQLENS is not None:
+        seq_start = tl.load(CU_SEQLENS + pid_b)
+        seq_end   = tl.load(CU_SEQLENS + pid_b + 1)
+        current_seqlen = seq_end - seq_start
+    else:
+        current_seqlen = seqlen
+        seq_start = 0
+
+    if SEQLEN_OFFSETS is not None:
+        offset = tl.load(SEQLEN_OFFSETS + pid_b).to(tl.int32)
+    else:
+        offset = 0
+
+    if pid_m >= current_seqlen:
+        return
+
+    rotary_dim_half = rotary_dim // 2
+    cols = tl.arange(0, BLOCK_K)
+    mask = cols < rotary_dim_half
+
+    pos = seq_start + pid_m + offset
+
+    # load cos/sin
+    cos_ptr = COS + pos * stride_cosm
+    sin_ptr = SIN + pos * stride_sinm
+    cos_val = tl.load(cos_ptr + cols * stride_cosk, mask=mask, other=1.0).to(tl.float32)
+    sin_val = tl.load(sin_ptr + cols * stride_sink, mask=mask, other=0.0).to(tl.float32)
+
+    x_base = pid_b * stride_xb + pid_h * stride_xh + pid_m * stride_xm
+    out_base = pid_b * stride_ob + pid_h * stride_oh + pid_m * stride_om
+
+    if interleaved:
+        even_ptrs = x_base + (cols * 2) * stride_xk
+        odd_ptrs  = x_base + (cols * 2 + 1) * stride_xk
+        x0 = tl.load(even_ptrs, mask=mask, other=0.0).to(tl.float32)
+        x1 = tl.load(odd_ptrs,  mask=mask, other=0.0).to(tl.float32)
+
+        if conjugate:
+            x1 = -x1
+
+        o0 = x0 * cos_val - x1 * sin_val
+        o1 = x0 * sin_val + x1 * cos_val
+
+        tl.store(out_base + (cols * 2) * stride_ok,     o0, mask=mask)
+        tl.store(out_base + (cols * 2 + 1) * stride_ok, o1, mask=mask)
+    else:
+        left_ptrs  = x_base + cols * stride_xk
+        right_ptrs = x_base + (cols + rotary_dim_half) * stride_xk
+        x0 = tl.load(left_ptrs,  mask=mask, other=0.0).to(tl.float32)
+        x1 = tl.load(right_ptrs, mask=mask, other=0.0).to(tl.float32)
+
+        if conjugate:
+            x1 = -x1
+
+        o0 = x0 * cos_val - x1 * sin_val
+        o1 = x0 * sin_val + x1 * cos_val
+
+        tl.store(out_base + cols * stride_ok,               o0, mask=mask)
+        tl.store(out_base + (cols + rotary_dim_half) * stride_ok, o1, mask=mask)
+
+    cols_rest = rotary_dim + tl.arange(0, BLOCK_K)
+    mask_rest = cols_rest < max_seqlen
+    if mask_rest.any():
+        src_rest = x_base + cols_rest * stride_xk
+        dst_rest = out_base + cols_rest * stride_ok
+        val_rest = tl.load(src_rest, mask=mask_rest, other=0.0)
+        tl.store(dst_rest, val_rest, mask=mask_rest)
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: Union[int, torch.Tensor] = 0,
+    cu_seqlens: Optional[torch.Tensor] = None,
+    max_seqlen: Optional[int] = None,
+    interleaved: bool = False,
+    inplace: bool = False,
+    conjugate: bool = False,
+) -> torch.Tensor:
+    if cu_seqlens is None:
+        batch, nheads, seqlen, headdim = x.shape
+    else:
+        assert x.ndim == 3
+        tot_seqlen, nheads, headdim = x.shape
+        batch = cu_seqlens.shape[0] - 1
+        if max_seqlen is None:
+            max_seqlen = int((cu_seqlens[1:] - cu_seqlens[:-1]).max())
+        seqlen = max_seqlen
+
+    seqlen_ro, halfdim = cos.shape
+    assert sin.shape == cos.shape
+    rotary_dim = halfdim * 2
+    assert rotary_dim <= headdim
+    assert x.dtype == cos.dtype == sin.dtype
+
+    cos = cos.contiguous()
+    sin = sin.contiguous()
+
+    if isinstance(seqlen_offsets, int):
+        seqlen_offsets_tensor = None
+    else:
+        assert seqlen_offsets.shape == (batch,)
+        seqlen_offsets = seqlen_offsets.contiguous()
+        seqlen_offsets_tensor = seqlen_offsets
+
+    out = torch.empty_like(x) if not inplace else x
+
+    # only copy non-rotary tails if not inplace
+    if rotary_dim < headdim and not inplace:
+        if cu_seqlens is None:
+            out[..., rotary_dim:] = x[..., rotary_dim:]
+        else:
+            out[:, :, rotary_dim:] = x[:, :, rotary_dim:]
+
+    BLOCK_M = 1
+    BLOCK_K = triton.next_power_of_2(rotary_dim) // 2
+    if cu_seqlens is None:
+        grid = (batch, nheads, seqlen)
+    else:
+        grid = (batch, nheads, max_seqlen)
+
+    rotary_kernel[grid](
+        x, cos, sin, out,
+        cu_seqlens,
+        seqlen_offsets_tensor,
+        x.stride(0), x.stride(1), x.stride(2), x.stride(3),
+        cos.stride(0), cos.stride(1),
+        sin.stride(0), sin.stride(1),
+        out.stride(0), out.stride(1), out.stride(2), out.stride(3),
+        headdim,
+        rotary_dim,
+        seqlen,
+        interleaved,
+        conjugate,
+        BLOCK_M=BLOCK_M,
+        BLOCK_K=BLOCK_K,
+    )
+    return out
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+def test_apply_rotary():
+
+    results = {}
+
+    
+
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin)
+
+    results['test_case_1'] = output.shape
+
+
+
+    # Test case 2: Variable length sequences with interleaving
+
+    total_seqlen, nheads, headdim = 256, 4, 64
+
+    batch = 3
+
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+
+    max_seqlen = 128
+
+    rotary_dim = 32
+
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+
+    results['test_case_2'] = output.shape
+
+
+
+    # Test case 3: Conjugate flag enabled
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, conjugate=True)
+
+    results['test_case_3'] = output.shape
+
+
+
+    # Test case 4: Inplace operation
+
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+
+    rotary_dim = 32
+
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+
+    output = apply_rotary(x, cos, sin, inplace=True)
+
+    results['test_case_4'] = output.shape
+
+
+
+    return results
+
+
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_99563.py.stderr b/src/temp/gen/rotary_transform.py_gen_triton_code_99563.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/rotary_transform.py_gen_triton_code_99563.py.stdout b/src/temp/gen/rotary_transform.py_gen_triton_code_99563.py.stdout
new file mode 100644
index 0000000..4c4372d
--- /dev/null
+++ b/src/temp/gen/rotary_transform.py_gen_triton_code_99563.py.stdout
@@ -0,0 +1,14 @@
+False*#*#None*#*#None*#*#Could not execute module rotary_transform.py_gen_triton_code_99563 due to at 80:13:
+        if conjugate:
+            x1 = -x1
+
+        o0 = x0 * cos_val - x1 * sin_val
+        o1 = x0 * sin_val + x1 * cos_val
+
+        tl.store(out_base + (cols * 2) * stride_ok,     o0, mask=mask)
+        tl.store(out_base + (cols * 2 + 1) * stride_ok, o1, mask=mask)
+    else:
+        left_ptrs  = x_base + cols * stride_xk
+        right_ptrs = x_base + (cols + rotary_dim_half) * stride_xk
+        x0 = tl.load(left_ptrs,  mask=mask, other=0.0).to(tl.float32)
+             ^
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_123151.py b/src/temp/gen/sin_kernel.py_gen_triton_code_123151.py
new file mode 100644
index 0000000..5c47073
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_123151.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(
+    x_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(0)  # 1-D program launch grid
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements  # protection against out-of-bounds memory access
+    x = tl.load(x_ptr + offsets, mask=mask)
+    out = tl.math.sin(x)
+    tl.store(output_ptr + offsets, out, mask=mask)
+
+
+def call_kernel(x: torch.Tensor, BLOCK_SIZE: int):
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda META: (triton.cdiv(n_elements, META["BLOCK_SIZE"]),)
+    kernel_function[grid](
+        x,
+        output,
+        n_elements,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_123151.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_123151.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_123151.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_123151.py.stdout
new file mode 100644
index 0000000..4bd0c64
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_123151.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module sin_kernel.py_gen_triton_code_123151 due to call_kernel() missing 1 required positional argument: 'BLOCK_SIZE'
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_179581.py b/src/temp/gen/sin_kernel.py_gen_triton_code_179581.py
new file mode 100644
index 0000000..da32b28
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_179581.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(
+    x_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor):
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda META: (triton.cdiv(n_elements, META["BLOCK_SIZE"]), )
+    kernel_function[grid](
+        x,
+        output,
+        n_elements,
+        BLOCK_SIZE=1024,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_179581.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_179581.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_179581.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_179581.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_179581.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_370053.py b/src/temp/gen/sin_kernel.py_gen_triton_code_370053.py
new file mode 100644
index 0000000..7d4dc17
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_370053.py
@@ -0,0 +1,101 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(x_ptr, output_ptr, n_elements, BLOCK_SIZE: tl.constexpr):
+    pid = tl.program_id(0)
+
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor):
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+
+    BLOCK_SIZE = 1024
+    grid = lambda META: (triton.cdiv(n_elements, META["BLOCK_SIZE"]),)
+
+    kernel_function[grid](
+        x,
+        output,
+        n_elements,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_370053.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_370053.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_370053.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_370053.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_370053.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_473025.py b/src/temp/gen/sin_kernel.py_gen_triton_code_473025.py
new file mode 100644
index 0000000..809fd65
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_473025.py
@@ -0,0 +1,92 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(x_ptr, output_ptr, n_elements, BLOCK_SIZE: tl.constexpr):
+    block_start = tl.program_id(0) * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor) -> torch.Tensor:
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda META: (triton.cdiv(n_elements, META["BLOCK_SIZE"]),)
+    kernel_function[grid](
+        x, output, n_elements,
+        BLOCK_SIZE=1024,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_473025.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_473025.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_473025.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_473025.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_473025.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_502063.py b/src/temp/gen/sin_kernel.py_gen_triton_code_502063.py
new file mode 100644
index 0000000..074cbe2
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_502063.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(
+    x_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    block_id = tl.program_id(0)
+    block_start = block_id * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor, BLOCK_SIZE: int = 1024) -> torch.Tensor:
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda meta: (triton.cdiv(n_elements, meta["BLOCK_SIZE"]),)
+    kernel_function[grid](
+        x,
+        output,
+        n_elements,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_502063.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_502063.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_502063.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_502063.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_502063.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_50482.py b/src/temp/gen/sin_kernel.py_gen_triton_code_50482.py
new file mode 100644
index 0000000..6b2ae34
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_50482.py
@@ -0,0 +1,102 @@
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(
+    x_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+
+    x = tl.load(x_ptr + offsets, mask=mask)
+    out = tl.math.sin(x)
+    tl.store(output_ptr + offsets, out, mask=mask)
+
+
+def call_kernel(
+    x: torch.Tensor,
+    BLOCK_SIZE: int = 128,
+) -> torch.Tensor:
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda META: (triton.cdiv(n_elements, META["BLOCK_SIZE"]),)
+    kernel_function[grid](
+        x,
+        output,
+        n_elements,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    return output
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_50482.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_50482.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_50482.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_50482.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_50482.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_557502.py b/src/temp/gen/sin_kernel.py_gen_triton_code_557502.py
new file mode 100644
index 0000000..97c0a6d
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_557502.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel_function(
+    x_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid          = tl.program_id(0)
+    block_start  = pid * BLOCK_SIZE
+    offsets      = block_start + tl.arange(0, BLOCK_SIZE)
+    mask         = offsets < n_elements
+    x            = tl.load(x_ptr + offsets, mask=mask)
+    result       = tl.math.sin(x)
+    tl.store(output_ptr + offsets, result, mask=mask)
+
+def call_kernel(x: torch.Tensor, output: torch.Tensor = None):
+    assert x.is_contiguous()
+    n_elements   = x.numel()
+    output       = torch.empty_like(x) if output is None else output
+    BLOCK_SIZE   = 128                     # fast baseline
+    n_programs   = triton.cdiv(n_elements, BLOCK_SIZE)
+    kernel_function[(n_programs)](
+        x_ptr      = x,
+        output_ptr = output,
+        n_elements = n_elements,
+        BLOCK_SIZE = BLOCK_SIZE,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_557502.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_557502.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_557502.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_557502.py.stdout
new file mode 100644
index 0000000..61e9a0b
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_557502.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module sin_kernel.py_gen_triton_code_557502 due to object of type 'int' has no len()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_560359.py b/src/temp/gen/sin_kernel.py_gen_triton_code_560359.py
new file mode 100644
index 0000000..a75668d
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_560359.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel_function(
+    x_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    result = tl.math.sin(x)
+    tl.store(output_ptr + offsets, result, mask=mask)
+
+def call_kernel(x: torch.Tensor, output: torch.Tensor = None):
+    assert x.is_contiguous()
+    n_elements = x.numel()
+    output = torch.empty_like(x) if output is None else output
+    BLOCK_SIZE = 128
+    n_programs = triton.cdiv(n_elements, BLOCK_SIZE)
+    kernel_function[(n_programs,)](
+        x_ptr=x,
+        output_ptr=output,
+        n_elements=n_elements,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_560359.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_560359.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_560359.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_560359.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_560359.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_794865.py b/src/temp/gen/sin_kernel.py_gen_triton_code_794865.py
new file mode 100644
index 0000000..f90fd90
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_794865.py
@@ -0,0 +1,95 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(x_ptr, output_ptr, n_elements: tl.constexpr, BLOCK_SIZE: tl.constexpr):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor, BLOCK_SIZE: int = 256) -> torch.Tensor:
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda meta: (triton.cdiv(n_elements, meta["BLOCK_SIZE"]),)
+    kernel_function[grid](
+        x,
+        output,
+        n_elements,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_794865.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_794865.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_794865.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_794865.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_794865.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_834634.py b/src/temp/gen/sin_kernel.py_gen_triton_code_834634.py
new file mode 100644
index 0000000..60d3a13
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_834634.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(
+    x_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor, BLOCK_SIZE: int = 1024):
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda meta: (triton.cdiv(n_elements, meta["BLOCK_SIZE"]),)
+    kernel_function[grid](
+        x,
+        output,
+        n_elements,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_834634.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_834634.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_834634.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_834634.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_834634.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_931009.py b/src/temp/gen/sin_kernel.py_gen_triton_code_931009.py
new file mode 100644
index 0000000..b70d3df
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_931009.py
@@ -0,0 +1,100 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(
+    x_ptr,
+    output_ptr,
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid = tl.program_id(0)            # program id of the 1D launch grid
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements       # mask out-of-bounds elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x)
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor, BLOCK_SIZE: int = 64):
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda meta: (triton.cdiv(n_elements, meta['BLOCK_SIZE']),)
+    kernel_function[grid](
+        x,
+        output,
+        n_elements,
+        BLOCK_SIZE=BLOCK_SIZE,
+    )
+    return output
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Function to test the Triton kernel
+
+def test_call_kernel():
+
+    results = {}
+
+    
+
+    # Test case 1: Small input tensor
+
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+
+    output1 = call_kernel(x1)
+
+    results['test_case_1'] = output1
+
+    
+
+    # Test case 2: Larger input tensor
+
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+
+    output2 = call_kernel(x2)
+
+    results['test_case_2'] = output2
+
+
+
+    # Test case 3: Edge case with zero elements
+
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+
+    output3 = call_kernel(x3)
+
+    results['test_case_3'] = output3
+
+
+
+    # Test case 4: Input tensor with negative values
+
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+
+    output4 = call_kernel(x4)
+
+    results['test_case_4'] = output4
+
+    
+
+    return results
+
+
+
+# Run the test function
+
+result_gold = test_call_kernel()
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_931009.py.stderr b/src/temp/gen/sin_kernel.py_gen_triton_code_931009.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/sin_kernel.py_gen_triton_code_931009.py.stdout b/src/temp/gen/sin_kernel.py_gen_triton_code_931009.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/sin_kernel.py_gen_triton_code_931009.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_108037.py b/src/temp/gen/triton_matmul.py_gen_triton_code_108037.py
new file mode 100644
index 0000000..00259dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_108037.py
@@ -0,0 +1,129 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+):
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = num_pid_m * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * num_pid_m
+    group_size_m = min(num_pid_m, M - first_pid_m * BLOCK_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        if IS_EVEN_K or k * BLOCK_SIZE_K + BLOCK_SIZE_K <= K:
+            a = tl.load(a_ptrs)
+            b = tl.load(b_ptrs)
+        else:
+            k_remaining = K - k * BLOCK_SIZE_K
+            a = tl.load(a_ptrs, mask=offs_k[None, :] < k_remaining, other=0.0)
+            b = tl.load(b_ptrs, mask=offs_k[:, None] < k_remaining, other=0.0)
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(c_ptr.type.element_ty)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor):
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    M, K = a.shape
+    K, N = b.shape
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    if a.dtype == torch.float16:
+        BLOCK_SIZE_M, BLOCK_SIZE_N = 64, 64
+        num_stages = 3
+        num_warps = 4
+    elif a.dtype == torch.float32:
+        BLOCK_SIZE_M, BLOCK_SIZE_N = 128, 128
+        num_stages = 3
+        num_warps = 8
+    else:
+        raise ValueError("Unsupported dtype")
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),)
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N,
+        BLOCK_SIZE_K=32,
+        IS_EVEN_K=(K % 32 == 0),
+        num_warps=num_warps,
+        num_stages=num_stages,
+    )
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_108037.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_108037.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_108037.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_108037.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_108037.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_12912.py b/src/temp/gen/triton_matmul.py_gen_triton_code_12912.py
new file mode 100644
index 0000000..9d9413c
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_12912.py
@@ -0,0 +1,120 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr = 8,
+):
+    pid = tl.program_id(0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        a = tl.load(a_ptrs, mask=offs_k[None, :] < (K - k * BLOCK_SIZE_K), other=0.0)
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < (K - k * BLOCK_SIZE_K), other=0.0)
+
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(a_ptr.type.element_ty)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor, c: torch.Tensor = None):
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    assert a.is_contiguous(), "Input a must be contiguous"
+    assert b.is_contiguous(), "Input b must be contiguous"
+
+    M, K = a.shape
+    K_, N = b.shape
+    assert K == K_, "K dimension mismatch"
+
+    if c is None:
+        c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    grid = lambda META: (triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),)
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=64,
+        BLOCK_SIZE_N=64,
+        BLOCK_SIZE_K=32,
+    )
+
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_12912.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_12912.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_12912.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_12912.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_12912.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_186313.py b/src/temp/gen/triton_matmul.py_gen_triton_code_186313.py
new file mode 100644
index 0000000..c8f7671
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_186313.py
@@ -0,0 +1,125 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    AXIS: tl.constexpr,
+):
+    pid = tl.program_id(AXIS)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k  = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        mask_a = (offs_am[:, None] < M) & (offs_k[None, :] < K)
+        mask_b = (offs_k[:, None] < K) & (offs_bn[None, :] < N)
+        a = tl.load(a_ptrs, mask=mask_a, other=0.0)
+        b = tl.load(b_ptrs, mask=mask_b, other=0.0)
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(a_ptr.dtype.element_ty)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_c = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    tl.store(c_ptrs, c, mask=mask_c)
+
+def matmul(a: torch.Tensor, b: torch.Tensor, c: torch.Tensor=None, activation=None):
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    M, K = a.shape
+    K, N = b.shape
+    if c is None:
+        c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),)
+
+    if a.dtype == torch.float16:
+        BLOCK_SIZE_K = 64 if K > 64 else 32
+        num_warps = 4
+        num_stages = 4 if K < 512 else 3
+    else:
+        BLOCK_SIZE_K = 128
+        num_warps = 4
+        num_stages = 3
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=64,
+        BLOCK_SIZE_N=64,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+        GROUP_SIZE_M=8,
+        AXIS=0,
+        num_warps=num_warps,
+        num_stages=num_stages,
+    )
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_186313.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_186313.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_186313.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_186313.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_186313.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_284744.py b/src/temp/gen/triton_matmul.py_gen_triton_code_284744.py
new file mode 100644
index 0000000..6e314ef
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_284744.py
@@ -0,0 +1,124 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = num_pid_m
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * num_pid_m
+    group_size_m = min(num_pid_m - first_pid_m, num_pid_m)
+    pid_m = first_pid_m + (pid % num_pid_m)
+    pid_n = (pid % num_pid_in_group) - pid_m * num_pid_n
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        k_offs = k * BLOCK_SIZE_K
+        mask_a = offs_k[None, :] < (K - k_offs)
+        mask_b = offs_k[:, None] < (K - k_offs)
+
+        a = tl.load(a_ptrs, mask=mask_a, other=0.0)
+        b = tl.load(b_ptrs, mask=mask_b, other=0.0)
+        accumulator += tl.dot(a, b)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(tl.float16)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    M, K = a.shape
+    K, N = b.shape
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 256
+    BLOCK_SIZE_K = 64
+    num_warps = 8
+    num_stages = 2
+
+    grid = lambda META: (triton.cdiv(M, BLOCK_SIZE_M) * triton.cdiv(N, BLOCK_SIZE_N),)
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+        num_warps=num_warps,
+        num_stages=num_stages
+    )
+
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_284744.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_284744.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_284744.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_284744.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_284744.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_366643.py b/src/temp/gen/triton_matmul.py_gen_triton_code_366643.py
new file mode 100644
index 0000000..64b2f74
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_366643.py
@@ -0,0 +1,127 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+):
+    pid = tl.program_id(0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = num_pid_m * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * num_pid_m
+    group_size_m = min(num_pid_m, M - first_pid_m * BLOCK_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        a = tl.load(a_ptrs, mask=offs_k[None, :] < K - k * BLOCK_SIZE_K, other=0.0)
+        b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_SIZE_K, other=0.0)
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(a_ptr.dtype.element_ty)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    assert a.is_contiguous(), "Matrix A must be contiguous"
+    assert b.is_contiguous(), "Matrix B must be contiguous"
+
+    M, K = a.shape
+    K, N = b.shape
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    if a.dtype == torch.float16:
+        BLOCK_SIZE_M = 64
+        BLOCK_SIZE_N = 64
+        BLOCK_SIZE_K = 32
+        num_stages = 2
+        num_warps = 4
+    elif a.dtype == torch.float32:
+        BLOCK_SIZE_M = 128
+        BLOCK_SIZE_N = 128
+        BLOCK_SIZE_K = 32
+        num_stages = 2
+        num_warps = 4
+    else:
+        raise ValueError(f"Unsupported dtype: {a.dtype}")
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),)
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M, BLOCK_SIZE_N=BLOCK_SIZE_N, BLOCK_SIZE_K=BLOCK_SIZE_K,
+        num_stages=num_stages, num_warps=num_warps
+    )
+    
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_366643.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_366643.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_366643.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_366643.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_366643.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_391924.py b/src/temp/gen/triton_matmul.py_gen_triton_code_391924.py
new file mode 100644
index 0000000..ba491f5
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_391924.py
@@ -0,0 +1,151 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    # fmt: off
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    AXIS_WM: tl.constexpr, AXIS_WN: tl.constexpr,
+    IS_EVEN_K: tl.constexpr,
+    DTYPE: tl.constexpr,
+    # fmt: on
+):
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + ((pid % num_pid_in_group) % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)  # (BLOCK_SIZE_M, BLOCK_SIZE_K)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)  # (BLOCK_SIZE_K, BLOCK_SIZE_N)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        if not IS_EVEN_K:
+            k_mask = offs_k[None, :] < K - k * BLOCK_SIZE_K
+            a = tl.load(a_ptrs, mask=k_mask, other=0.0)
+            b = tl.load(b_ptrs, mask=k_mask.T, other=0.0)
+        else:
+            a = tl.load(a_ptrs)
+            b = tl.load(b_ptrs)
+        a = a.to(DTYPE)
+        b = b.to(DTYPE)
+        accumulator += tl.dot(a, b, allow_tf32=True)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+
+    # assumes accum is always fp32
+    c = accumulator.to(DTYPE)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor, c: torch.Tensor = None) -> torch.Tensor:
+    assert a.dim() == 2, f"Expected 2D input tensor a, got {a.dim()}D"
+    assert b.dim() == 2, f"Expected 2D input tensor b, got {b.dim()}D"
+    M, K = a.shape
+    K_, N = b.shape
+    assert K == K_, f"Incompatible inner dimension for matmul: {K} vs {K_}"
+
+    if c is None:
+        c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+    else:
+        assert c.shape == (M, N), f"Output tensor has wrong shape: {c.shape}, expected {(M, N)}"
+
+    # constants depending on dtype
+    if a.dtype == torch.float16:
+        BLOCK_SIZE_M = 128
+        BLOCK_SIZE_N = 256
+        BLOCK_SIZE_K = 64
+        num_stages = 2
+        num_warps = 8
+    else:
+        # float32
+        BLOCK_SIZE_M = 128
+        BLOCK_SIZE_N = 256
+        BLOCK_SIZE_K = 32
+        num_stages = 2
+        num_warps = 4
+
+    def grid(META):
+        return (triton.cdiv(M, META["BLOCK_SIZE_M"]) * triton.cdiv(N, META["BLOCK_SIZE_N"]),)
+
+    # fmt: off
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M, BLOCK_SIZE_N=BLOCK_SIZE_N, BLOCK_SIZE_K=BLOCK_SIZE_K,
+        GROUP_SIZE_M=8,
+        AXIS_WM=0, AXIS_WN=1,
+        IS_EVEN_K=(K % BLOCK_SIZE_K == 0),
+        DTYPE=tl.float32 if a.dtype == torch.float32 else tl.float16,
+        num_stages=num_stages, num_warps=num_warps,
+    )
+    # fmt: on
+
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_391924.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_391924.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_391924.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_391924.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_391924.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_395140.py b/src/temp/gen/triton_matmul.py_gen_triton_code_395140.py
new file mode 100644
index 0000000..6b43530
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_395140.py
@@ -0,0 +1,120 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    offs_m = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_n = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_n[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        k_remaining = K - k * BLOCK_SIZE_K
+        a_mask = (offs_m[:, None] < M) & (offs_k[None, :] < k_remaining)
+        b_mask = (offs_k[:, None] < k_remaining) & (offs_n[None, :] < N)
+
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+        b = tl.load(b_ptrs, mask=b_mask, other=0.0)
+        accumulator += tl.dot(a, b)
+
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator.to(c_ptr.type.element_ty), mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.device == b.device and a.dtype == b.dtype, "Input tensors must be on the same device and dtype"
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions for matrix multiplication"
+
+    M, K = a.shape
+    _, N = b.shape
+    c = torch.empty((M, N), dtype=a.dtype, device=a.device)
+
+    block_size_m = 64
+    block_size_n = 64
+    block_size_k = 32
+
+    if a.dtype == torch.float16:
+        num_warps = 4
+        num_stages = 3
+    else:  # torch.float32 or others
+        num_warps = 8
+        num_stages = 2
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']), triton.cdiv(N, META['BLOCK_SIZE_N']))
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=block_size_m,
+        BLOCK_SIZE_N=block_size_n,
+        BLOCK_SIZE_K=block_size_k,
+    )
+
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_395140.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_395140.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_395140.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_395140.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_395140.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_417385.py b/src/temp/gen/triton_matmul.py_gen_triton_code_417385.py
new file mode 100644
index 0000000..53a9c2e
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_417385.py
@@ -0,0 +1,124 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+):
+
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + ((pid % num_pid_in_group) % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        k_start = k * BLOCK_SIZE_K
+        offs_k_curr = k_start + offs_k
+        a_mask = offs_k_curr[None, :] < K
+        b_mask = offs_k_curr[:, None] < K
+        a = tl.load(a_ptrs, mask=a_mask, other=0.0)
+        b = tl.load(b_ptrs, mask=b_mask, other=0.0)
+        accumulator = tl.dot(a, b, accumulator)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(tl.float16)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+def matmul(a: torch.Tensor, b: torch.Tensor, activation=""):
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    assert a.is_contiguous(), "Matrix A must be contiguous"
+    assert b.is_contiguous(), "Matrix B must be contiguous"
+    M, K = a.shape
+    K, N = b.shape
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+    
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 256
+    BLOCK_SIZE_K = 64
+    GROUP_SIZE_M = 8
+    
+    grid = lambda META: (
+        triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),
+    )
+    
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+        GROUP_SIZE_M=GROUP_SIZE_M,
+    )
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_417385.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_417385.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_417385.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_417385.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_417385.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_654780.py b/src/temp/gen/triton_matmul.py_gen_triton_code_654780.py
new file mode 100644
index 0000000..f15a5de
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_654780.py
@@ -0,0 +1,122 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    IS_EVEN_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    num_pid_m = (M + BLOCK_SIZE_M - 1) // BLOCK_SIZE_M
+    num_pid_n = (N + BLOCK_SIZE_N - 1) // BLOCK_SIZE_N
+    num_pid_in_group = group_size = num_pid_m
+    group_id = pid // group_size
+    first_pid_m = group_id * group_size
+    group_size_m = min(num_pid_m - first_pid_m, group_size)
+    pid_m = first_pid_m + (pid % group_size)
+    pid_n = (pid % num_pid_n) // group_size_m
+
+    offs_am = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        if IS_EVEN_K or k * BLOCK_SIZE_K + offs_k[None, :] < K:
+            a = tl.load(a_ptrs, mask=None if IS_EVEN_K else k * BLOCK_SIZE_K + offs_k[None, :] < K, other=0.0)
+            b = tl.load(b_ptrs, mask=None if IS_EVEN_K else k * BLOCK_SIZE_K + offs_k[:, None] < K, other=0.0)
+        else:
+            a = tl.load(a_ptrs, mask=offs_k[None, :] < K - k * BLOCK_SIZE_K, other=0.0)
+            b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_SIZE_K, other=0.0)
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(tl.float16)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    M, K = a.shape
+    K, N = b.shape
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 256
+    BLOCK_SIZE_K = 64
+    num_warps = 8
+    num_stages = 2
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),)
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+        IS_EVEN_K=K % BLOCK_SIZE_K == 0,
+        num_warps=num_warps,
+        num_stages=num_stages
+    )
+
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_654780.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_654780.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_654780.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_654780.py.stdout
new file mode 100644
index 0000000..ebbed98
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_654780.py.stdout
@@ -0,0 +1 @@
+False*#*#None*#*#None*#*#Could not execute module triton_matmul.py_gen_triton_code_654780 due to Simultaneous multiple assignment is not supported.
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_769893.py b/src/temp/gen/triton_matmul.py_gen_triton_code_769893.py
new file mode 100644
index 0000000..58aedb7
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_769893.py
@@ -0,0 +1,121 @@
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr, BLOCK_SIZE_N: tl.constexpr, BLOCK_SIZE_K: tl.constexpr,
+    IS_EVEN_K: tl.constexpr
+):
+    pid = tl.program_id(0)
+    num_pid_m = (M + BLOCK_SIZE_M - 1) // BLOCK_SIZE_M
+    num_pid_n = (N + BLOCK_SIZE_N - 1) // BLOCK_SIZE_N
+    group_size = num_pid_m
+    num_pid_in_group = num_pid_m
+    group_id = pid // group_size
+    first_pid_m = group_id * group_size
+    group_size_m = min(num_pid_m - first_pid_m, group_size)
+    pid_m = first_pid_m + (pid % group_size)
+    pid_n = (pid % num_pid_n) // group_size_m
+
+    offs_am = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        if IS_EVEN_K or k * BLOCK_SIZE_K + offs_k[None, :] < K:
+            a = tl.load(a_ptrs, mask=None if IS_EVEN_K else k * BLOCK_SIZE_K + offs_k[None, :] < K, other=0.0)
+            b = tl.load(b_ptrs, mask=None if IS_EVEN_K else k * BLOCK_SIZE_K + offs_k[:, None] < K, other=0.0)
+        else:
+            a = tl.load(a_ptrs, mask=offs_k[None, :] < K - k * BLOCK_SIZE_K, other=0.0)
+            b = tl.load(b_ptrs, mask=offs_k[:, None] < K - k * BLOCK_SIZE_K, other=0.0)
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(tl.float16)
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+    c_mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=c_mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    M, K = a.shape
+    K, N = b.shape
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_N = 256
+    BLOCK_SIZE_K = 64
+    num_warps = 8
+    num_stages = 2
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),)
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+        IS_EVEN_K=K % BLOCK_SIZE_K == 0,
+        num_warps=num_warps,
+        num_stages=num_stages
+    )
+
+    return c
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_769893.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_769893.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_769893.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_769893.py.stdout
new file mode 100644
index 0000000..380d214
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_769893.py.stdout
@@ -0,0 +1,14 @@
+False*#*#None*#*#None*#*#Could not execute module triton_matmul.py_gen_triton_code_769893 due to at 30:16:
+    pid_n = (pid % num_pid_n) // group_size_m
+
+    offs_am = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        if IS_EVEN_K or k * BLOCK_SIZE_K + offs_k[None, :] < K:
+            a = tl.load(a_ptrs, mask=None if IS_EVEN_K else k * BLOCK_SIZE_K + offs_k[None, :] < K, other=0.0)
+                ^
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_993568.py b/src/temp/gen/triton_matmul.py_gen_triton_code_993568.py
new file mode 100644
index 0000000..1271799
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_993568.py
@@ -0,0 +1,133 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# ------------------------------------------------------------------------------
+# Helper: fast, tiled matmul for fp16 / fp32 on AMD GPUs (ROCm-compatible)
+# ------------------------------------------------------------------------------
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,
+    M, N, K,
+    stride_am, stride_ak,
+    stride_bk, stride_bn,
+    stride_cm, stride_cn,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr
+):
+    pid = tl.program_id(axis=0)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_bn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    offs_k  = tl.arange(0, BLOCK_SIZE_K)
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        mask_a = (offs_am[:, None] < M) & ((BLOCK_SIZE_K * k + offs_k)[None, :] < K)
+        mask_b = ((BLOCK_SIZE_K * k + offs_k)[:, None] < K) & (offs_bn[None, :] < N)
+        a = tl.load(a_ptrs, mask=mask_a, other=0.0)
+        b = tl.load(b_ptrs, mask=mask_b, other=0.0)
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, accumulator, mask=mask)
+
+
+def matmul(a: torch.Tensor, b: torch.Tensor, activation=None):
+    assert a.dtype == b.dtype
+    assert a.dim() == 2 and b.dim() == 2, "only 2-D tensors supported"
+    M, K = a.shape
+    K2, N = b.shape
+    assert K == K2
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    if a.dtype == torch.float16:
+        BLOCK_SIZE_M = 64
+        BLOCK_SIZE_N = 64
+        BLOCK_SIZE_K = 32
+        num_stages = 2
+        num_warps = 4
+    elif a.dtype == torch.float32:
+        BLOCK_SIZE_M = 64
+        BLOCK_SIZE_N = 64
+        BLOCK_SIZE_K = 32
+        num_stages = 4
+        num_warps = 4
+    else:
+        raise RuntimeError("Unsupported dtype for AMD Triton matmul")
+
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']),)
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_N=BLOCK_SIZE_N,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+        GROUP_SIZE_M=8,
+        num_stages=num_stages,
+        num_warps=num_warps,
+    )
+    return c
+
+
+##################################################################################################################################################
+
+
+
+
+
+import torch
+
+
+
+# Test for matmul
+
+def test_matmul():
+
+    results = {}
+
+    M, K, N = 256, 128, 256
+
+
+
+    # Test case 1: torch.float16
+
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+
+    c = matmul(a, b)
+
+    results['test_case_1'] = c
+
+
+
+    return results
+
+
+
+# Run all tests
+
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_993568.py.stderr b/src/temp/gen/triton_matmul.py_gen_triton_code_993568.py.stderr
new file mode 100644
index 0000000..e69de29
diff --git a/src/temp/gen/triton_matmul.py_gen_triton_code_993568.py.stdout b/src/temp/gen/triton_matmul.py_gen_triton_code_993568.py.stdout
new file mode 100644
index 0000000..113b5dd
--- /dev/null
+++ b/src/temp/gen/triton_matmul.py_gen_triton_code_993568.py.stdout
@@ -0,0 +1 @@
+True*#*#True*#*#None*#*#None
diff --git a/src/temp/int4_matmul.py b/src/temp/int4_matmul.py
new file mode 100644
index 0000000..f9dae9c
--- /dev/null
+++ b/src/temp/int4_matmul.py
@@ -0,0 +1,286 @@
+
+import torch
+import triton
+import triton.language as tl
+
+# --------------------------------------------------------------------------------
+# Triton kernels for INT4 matrix multiplication (weight dequantized on the fly)
+# --------------------------------------------------------------------------------
+@triton.autotune(
+    configs=[
+        # M,   N,   K,  BLOCK_M, BLOCK_N, BLOCK_K, SPLIT_K, num_stages, num_warps
+        triton.Config({'BLOCK_SIZE_M': 64 , 'BLOCK_SIZE_N': 64 , 'BLOCK_SIZE_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64 , 'BLOCK_SIZE_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64 , 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 128, 'BLOCK_SIZE_K': 32, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 64 , 'BLOCK_SIZE_N': 64 , 'BLOCK_SIZE_K': 64, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+        triton.Config({'BLOCK_SIZE_M': 128, 'BLOCK_SIZE_N': 64 , 'BLOCK_SIZE_K': 64, 'SPLIT_K': 1}, num_stages=3, num_warps=8),
+    ],
+    key = ["M", "N", "K"],
+)
+@triton.jit
+def matmul_kernel(
+    # pointers to matmul operands
+    a_ptr, b_ptr, c_ptr,                          # a is fp16/bf16, b is quantized (int packed), c is output fp16/bf16
+    # scales + zero points vectors
+    scales_ptr, zeros_ptr,                        # per-group fp16
+    # strides
+    stride_am, stride_ak,
+    stride_bk, stride_bn, stride_b_packed,        # b is (K/8, N)  packed 8 int4 in one int32
+    stride_cm, stride_cn,
+    stride_scales,                                # (num_groups)
+    stride_zeros,                                 # (num_groups)
+    # dimension sizes
+    M, N, K,
+    groupsize: tl.constexpr,                      # dequantization group granularity
+    # block sizes for tiling
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    SPLIT_K: tl.constexpr,
+):
+    pid  = tl.program_id(axis=0)
+    pid_z= tl.program_id(axis=1)                 # for SPLIT_K
+
+    # tile identifiers
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    if SPLIT_K > 1:
+        pid_m = pid // num_pid_n
+        pid_n = pid % num_pid_n
+    else:
+        num_tiles_k = tl.cdiv(K, BLOCK_SIZE_K)
+        pid_m = pid // (num_tiles_k * num_pid_n)
+        remaining = pid % (num_tiles_k * num_pid_n)
+        pid_n = remaining // num_tiles_k
+        pid_k_first = remaining % num_tiles_k
+        pid_k_last = pid_k_first + 1
+    # NOTE: currently implement simple row/col tiling, so we set SPLIT_K always to 1
+    pid_m = pid // num_pid_n
+    pid_n = pid % num_pid_n
+
+    # offset block pointers
+    offs_m = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M))
+    offs_n = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N))
+    offs_k = pid_z * BLOCK_SIZE_K + tl.arange(0, BLOCK_SIZE_K)
+
+    # adjust overlapping
+    offs_m = tl.where(offs_m < M, offs_m, M-1)
+    offs_n = tl.where(offs_n < N, offs_n, N-1)
+    offs_k = tl.where(offs_k < K, offs_k, K-1)
+
+    a_ptrs = a_ptr + (offs_m[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + ((offs_k[:, None] // 8) * stride_b_packed + offs_n[None, :] * stride_bn)
+
+    scales_ptrs = scales_ptr + ((offs_k[:, None] // groupsize) * stride_scales)
+    zeros_ptrs  = zeros_ptr  + ((offs_k[:, None] // groupsize) * stride_zeros)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K * SPLIT_K)):
+        # edge masking
+        k_cur = k * BLOCK_SIZE_K + offs_k
+        mask_k = k_cur < K
+
+        # load A tile (fp16)
+        a_tile = tl.load(a_ptrs, mask=mask_k[None, :], other=0.0)
+
+        # load packed INT4 B tile
+        b_int = tl.load(b_ptrs, mask=mask_k[:, None] & (offs_n[None, :] < N), other=0)
+
+        # ---- dequantize ----
+        # unpack each int32 into 8 int4 values (low nibble first)
+        scales = tl.load(scales_ptrs, mask=mask_k[:, None] & (offs_n[None, :] < N), other=1.0)
+        zeros  = tl.load(zeros_ptrs,  mask=mask_k[:, None] & (offs_n[None, :] < N), other=0.0)
+
+        # split nibble from packed int8
+        inner = (offs_k[:, None] % 8) * 4
+        b_ext   = (b_int >> inner) & 0xF          # 0..15
+        b_deint = b_ext.to(tl.float32)
+
+        bq_f32 = scales * (b_deint - zeros)
+
+        # emulated block-K reduction accumulation
+        accumulator += tl.dot(a_tile, bq_f32)
+
+        # advance pointers
+        a_ptrs += BLOCK_SIZE_K * SPLIT_K * stride_ak
+        b_ptrs += (BLOCK_SIZE_K * SPLIT_K // 8) * stride_b_packed
+        scales_ptrs += (BLOCK_SIZE_K * SPLIT_K // groupsize) * stride_scales
+        zeros_ptrs  += (BLOCK_SIZE_K * SPLIT_K // groupsize) * stride_zeros
+
+    # write back
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    mask_m = offs_cm < M
+    mask_n = offs_cn < N
+    c_ptrs = c_ptr + (offs_cm[:, None] * stride_cm + offs_cn[None, :] * stride_cn)
+    c = accumulator.to(c_ptr.type.element_ty)
+    tl.store(c_ptrs, c, mask=mask_m[:, None] & mask_n[None, :])
+
+
+
+# --------------------------------------------------------------------------------
+# Python utility entry — int4 dequantized matrix multiply wrapper
+# --------------------------------------------------------------------------------
+def matmul_dequantize_int4_s2(
+    x: torch.Tensor,                   # (M, K)  fp16/fp32
+    qweight: torch.Tensor,             # (K//8, N) int32 each value holds 8 int4
+    scales: torch.Tensor,              # (num_groups, N) fp16/fp32
+    zeros: torch.Tensor,               # (num_groups, N) fp16/fp32
+    groupsize: int = 128,
+) -> torch.Tensor:
+    # Device check (ROCm friendly)
+    assert x.is_cuda or str(x.device).startswith("cuda")
+    M, K = x.shape
+    assert qweight.shape == (K//8, qweight.shape[1])
+    N = qweight.shape[1]
+
+    # alloc output
+    c = torch.empty((M, N), dtype=x.dtype, device=x.device)
+
+    # prepare grid
+    grid = lambda META: (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']), 1)
+
+    matmul_kernel[grid](
+        x, qweight, c,
+        scales, zeros,
+        x.stride(0), x.stride(1),
+        qweight.stride(0), qweight.stride(1), qweight.stride(0),  # 3rd stride unused in kernel
+        c.stride(0), c.stride(1),
+        scales.stride(0), zeros.stride(0),
+        M, N, K,
+        groupsize,
+    )
+
+    return c
+
+
+
+# --------------------------------------------------------------------------------
+# INT4 quantize helper
+# --------------------------------------------------------------------------------
+def quantize_int4(w: torch.Tensor, groupsize: int = 128) -> tuple:
+    """
+    Quantize fp16/32 weights into INT4 with per-group scale & zero-point.
+    Returns:
+        qw      (K//8, N)  int32   -> 8 int4 per int32
+        scales  (num_groups, N) fp16
+        zeros   (num_groups, N) fp16
+    """
+    if w.dim() == 1:
+        w = w.unsqueeze(1)
+    shape = w.shape
+    K_orig, N = shape[-2], shape[-1]
+    w = w.view(-1, N)
+
+    # pad to multiple of groupsize
+    K_pad = (K_orig + groupsize - 1) // groupsize * groupsize
+    if K_pad > K_orig:
+        w = torch.cat([w, torch.zeros(K_pad - K_orig, N, dtype=w.dtype, device=w.device)], dim=0)
+
+    assert w.shape[0] % groupsize == 0
+    num_groups = w.shape[0] // groupsize
+
+    # Reshape to (num_groups, groupsize, N)
+    w = w.view(num_groups, groupsize, N)
+
+    # compute scale & zero
+    w_min = torch.amin(w, dim=1)  # (num_groups,N)
+    w_max = torch.amax(w, dim=1)
+    scale = (w_max - w_min) / 15.0
+    scale = scale.clamp(min=1e-10)
+    zero = (torch.round(-w_min / scale)).clamp(0, 15)
+
+    # quantize
+    w_int = torch.round(w / scale.unsqueeze(1) + zero.unsqueeze(1)).clamp(0, 15).to(torch.int32)
+
+    # pack 8 INT4 -> 1 INT32
+    packed = torch.zeros(num_groups * groupsize // 8, N, dtype=torch.int32, device=w.device)
+    for i in range(8):
+        mask = 0xF
+        packed |= (w_int[:, i::8, :] << (4 * i)) & mask
+
+    packed = packed.view(K_pad // 8, N)
+    scale = scale.to(torch.float16)
+    zero  = zero.to(torch.float16)
+
+    return packed[: (K_orig + 7) // 8], scale, zero
+
+
+# --------------------------------------------------------------------------------
+# Utility to unpack INT4 for testing only
+# --------------------------------------------------------------------------------
+@triton.jit
+def _unpack_int4_kernel(
+    qw_ptr, scales_ptr, zeros_ptr, out_ptr,
+    K, N,
+    stride_qw, stride_scales, stride_zeros, stride_out,
+    BLOCK_SIZE: tl.constexpr,
+):
+    pid_n = tl.program_id(0)
+    pid_k = tl.program_id(1)
+
+    # indices
+    offs_n = pid_n * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
+    offs_k = pid_k * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
+
+    mask = (offs_k < K) & (offs_n < N)
+    scale_ptr = scales_ptr + offs_n * stride_scales
+    zero_ptr  = zeros_ptr  + offs_n * stride_zeros
+    scales = tl.load(scale_ptr, mask=offs_n < N, other=1.0)
+    zeros  = tl.load(zero_ptr , mask=offs_n < N, other=0.0)
+
+    # Each qw elt holds 8 values
+    offs_k_group = offs_k // 8
+    offs_k_inner = offs_k % 8
+
+    qw_idx = offs_k_group * stride_qw + offs_n * 1  # contig along N
+    qw = tl.load(qw_ptr + qw_idx, mask=mask, other=0)
+
+    val = (qw >> (4 * offs_k_inner)) & 0xF
+    fp_val = scales * (val.to(tl.float32) - zeros)
+    offs_out = offs_k * stride_out + offs_n * 1
+    tl.store(out_ptr + offs_out, fp_val, mask=mask)
+
+
+def unpack_int4(qw: torch.Tensor, scales: torch.Tensor, zeros: torch.Tensor) -> torch.Tensor:
+    K8, N = qw.shape
+    K = K8 * 8
+    assert scales.shape == zeros.shape == (K // 128, N)  # depends on groupsize 128
+    out = torch.zeros(K, N, dtype=scales.dtype, device=qw.device)
+
+    grid = lambda META: (triton.cdiv(N, META['BLOCK_SIZE']), triton.cdiv(K, META['BLOCK_SIZE']))
+
+    _unpack_int4_kernel[grid](
+        qw,
+        scales,
+        zeros,
+        out,
+        K, N,
+        qw.stride(0), scales.stride(0), zeros.stride(0), out.stride(0),
+        BLOCK_SIZE=64,
+    )
+
+    return out
+
+##################################################################################################################################################
+
+
+
+def test_correct_int4_s2(M=32, K=4096, N=4096):
+    group_size = 128
+    a = torch.randn((M, K), device='cuda', dtype=torch.float16)
+    b = torch.randn((K, N), device='cuda', dtype=torch.float16)
+    int_b, b_scale, b_zero_point, _ = quantize_int4(b, group_size=group_size)
+    
+    # Test case
+    triton_output = matmul_dequantize_int4_s2(a, int_b, b_scale, b_zero_point, group_size)
+    
+    results = {
+        "test_case_1": triton_output
+    }
+    
+    return results
+
+result_gold = test_correct_int4_s2()
diff --git a/src/temp/l2_norm_bwd.py b/src/temp/l2_norm_bwd.py
new file mode 100644
index 0000000..8e3f62c
--- /dev/null
+++ b/src/temp/l2_norm_bwd.py
@@ -0,0 +1,117 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_bwd_kernel(
+    X,
+    DY,
+    DX,
+    M,
+    N,
+    eps,
+    stride_x_row,
+    stride_dy_row,
+    stride_dx_row,
+    BLOCK_N: tl.constexpr
+):
+    row = tl.program_id(0)
+    if row >= M:
+        return
+
+    cols = tl.arange(0, BLOCK_N)
+    mask = cols < N
+
+    x_ptr = X + row * stride_x_row
+    dy_ptr = DY + row * stride_dy_row
+    dx_ptr = DX + row * stride_dx_row
+
+    x = tl.load(x_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+    dy = tl.load(dy_ptr + cols, mask=mask, other=0.0).to(tl.float32)
+
+    var = tl.sum(x * x, axis=0) / N
+    rstd = tl.math.rsqrt(var + eps)
+
+    term = dy * rstd - tl.sum(dy * x, axis=0) * (1.0 / (var + eps)) * rstd * x
+    dx = tl.where(mask, term, 0.0)
+
+    tl.store(dx_ptr + cols, dx, mask=mask)
+
+
+def _l2_norm_bwd(x: torch.Tensor, dy: torch.Tensor, eps: float = 1e-12):
+    original_shape = x.shape
+    x = x.view(-1, original_shape[-1])
+    dy = dy.view(-1, original_shape[-1])
+
+    M, N = x.shape
+    if N == 0:
+        return torch.empty_like(x).view(*original_shape)
+
+    BLOCK_N = triton.next_power_of_2(N)
+    if N > BLOCK_N:
+        raise ValueError(
+            f"Cannot normalize a row of size {N} larger than max BLOCK_N ({BLOCK_N})."
+        )
+
+    dx = torch.empty_like(x)
+
+    if not x.is_contiguous():
+        x = x.contiguous()
+    if not dy.is_contiguous():
+        dy = dy.contiguous()
+
+    _l2_norm_bwd_kernel[(M,)](
+        x,
+        dy,
+        dx,
+        M,
+        N,
+        eps,
+        x.stride(0),
+        dy.stride(0),
+        dx.stride(0),
+        BLOCK_N=BLOCK_N,
+    )
+
+    return dx.view(*original_shape)
+
+##################################################################################################################################################
+
+
+
+import torch
+
+# Test the backward L2 normalization
+def test_l2_norm_bwd():
+    results = {}
+    
+    # Test case 1: Default case
+    x = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+    dy = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+    dx = _l2_norm_bwd(x, dy)
+    results['test_case_1'] = dx
+
+    # Test case 2: Different shape
+    x = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+    dy = torch.randn(2, 16, device='cuda', dtype=torch.float32)
+    dx = _l2_norm_bwd(x, dy)
+    results['test_case_2'] = dx
+
+    # Test case 3: Larger tensor
+    x = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+    dy = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+    dx = _l2_norm_bwd(x, dy)
+    results['test_case_3'] = dx
+
+    # Test case 4: Edge case with small tensor
+    x = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+    dy = torch.randn(1, 8, device='cuda', dtype=torch.float32)
+    dx = _l2_norm_bwd(x, dy)
+    results['test_case_4'] = dx
+
+    return results
+
+# Run the tests
+result_gold = test_l2_norm_bwd()
diff --git a/src/temp/l2_norm_triton1.py b/src/temp/l2_norm_triton1.py
new file mode 100644
index 0000000..8bf925b
--- /dev/null
+++ b/src/temp/l2_norm_triton1.py
@@ -0,0 +1,97 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def _l2_norm_fwd_1pass_kernel(X, Y, stride_x_row, N, eps, BLOCK_N: tl.constexpr):
+    # program ids
+    row_id = tl.program_id(0)
+
+    # offsets
+    offs_n = tl.arange(0, BLOCK_N)
+
+    # compute normalized offset
+    row_start = X + row_id * stride_x_row
+    y_row_start = Y + row_id * stride_x_row
+
+    # compute sum of squares
+    var = tl.zeros([], dtype=tl.float32)
+    masked_offs = offs_n < N
+    for i in range(0, N, BLOCK_N):
+        offs = i + offs_n
+        mask = masked_offs & (offs < N)
+        x_ptrs = row_start + offs  # assuming the tensor has stride = 1 in the last dimension
+        x = tl.load(x_ptrs, mask=mask, other=0.0)
+        var += tl.sum(x.to(tl.float32) * x.to(tl.float32), axis=0)
+
+    # Compute rstd
+    rstd = tl.rsqrt(var + eps)
+
+    # normalize and store
+    for i in range(0, N, BLOCK_N):
+        offs = i + offs_n
+        mask = masked_offs & (offs < N)
+        x_ptrs = row_start + offs
+        y_ptrs = y_row_start + offs
+        x = tl.load(x_ptrs, mask=mask, other=0.0)
+        x_normed = x.to(tl.float32) * rstd
+        tl.store(y_ptrs, x_normed.to(Y.type.element_ty), mask=mask)
+
+
+def _l2_norm_fwd(x: torch.Tensor, eps: float = 1e-5):
+    original_shape = x.shape
+    x = x.view(-1, x.shape[-1])
+    M, N = x.shape
+    y = torch.empty(M, N, dtype=x.dtype, device=x.device)
+
+    element_size = x.element_size()
+    max_block_size = 65536 // element_size
+    BLOCK_N = triton.next_power_of_2(N)
+    if BLOCK_N > max_block_size:
+        BLOCK_N = triton.next_power_of_2(triton.cdiv(max_block_size, 8))
+    assert N <= BLOCK_N, "Feature dimension exceeds the max block size"
+
+    _l2_norm_fwd_1pass_kernel[(M,)](
+        x, y,
+        x.stride(0),
+        N,
+        eps,
+        BLOCK_N=BLOCK_N
+    )
+    return y.view(original_shape)
+
+##################################################################################################################################################
+
+
+
+import torch
+
+# Test the forward L2 normalization
+def test_l2_norm_fwd():
+    results = {}
+    
+    # Test case 1
+    x1 = torch.randn(4, 8, device='cuda', dtype=torch.float32)
+    y1 = _l2_norm_fwd(x1)
+    results['test_case_1'] = y1
+
+    # Test case 2: Different batch size
+    x2 = torch.randn(2, 8, device='cuda', dtype=torch.float32)
+    y2 = _l2_norm_fwd(x2)
+    results['test_case_2'] = y2
+
+    # Test case 3: Different feature size
+    x3 = torch.randn(4, 4, device='cuda', dtype=torch.float32)
+    y3 = _l2_norm_fwd(x3)
+    results['test_case_3'] = y3
+
+    # Test case 4: Larger tensor
+    x4 = torch.randn(8, 8, device='cuda', dtype=torch.float32)
+    y4 = _l2_norm_fwd(x4)
+    results['test_case_4'] = y4
+
+    return results
+
+result_gold = test_l2_norm_fwd()
diff --git a/src/temp/matrix_transpose.py b/src/temp/matrix_transpose.py
new file mode 100644
index 0000000..01dfb65
--- /dev/null
+++ b/src/temp/matrix_transpose.py
@@ -0,0 +1,76 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def kernel(M, Out, matrix_stridex, matrix_stridey, out_stridex, out_stridey, SIZE_M, D_HEAD):
+    pid_m = tl.program_id(0)
+    pid_n = tl.program_id(1)
+
+    # Compute base pointers for this block
+    offs_m = pid_m * 16 + tl.arange(0, 16)
+    offs_n = pid_n * 16 + tl.arange(0, 16)
+
+    # Mask to prevent out-of-bounds access
+    mask = (offs_m[:, None] < SIZE_M) & (offs_n[None, :] < D_HEAD)
+
+    # Compute memory addresses
+    in_ptrs = M + offs_m[:, None] * matrix_stridex + offs_n[None, :] * matrix_stridey
+    out_ptrs = Out + offs_n[:, None] * out_stridex + offs_m[None, :] * out_stridey
+
+    # Load and transpose
+    data = tl.load(in_ptrs, mask=mask)
+    tl.store(out_ptrs, data, mask=mask)
+
+
+def wrapper(matrix_stridex: int, matrix_stridey: int, out_stridex: int, out_stridey: int):
+    # Set dimensions
+    SIZE_M = 512
+    D_HEAD = 256
+    
+    # Initialize tensors on device
+    matrix = torch.randn(SIZE_M, D_HEAD, dtype=torch.float16, device='cuda')
+    out = torch.zeros(D_HEAD, SIZE_M, dtype=torch.float16, device='cuda')
+    
+    # Configure grid
+    grid = lambda META: (
+        triton.cdiv(SIZE_M, 16),
+        triton.cdiv(D_HEAD, 16)
+    )
+    
+    # Launch kernel
+    kernel[grid](
+        matrix, out,
+        matrix.stride(0), matrix.stride(1),
+        out.stride(0), out.stride(1),
+        SIZE_M, D_HEAD
+    )
+    
+    return out
+
+##################################################################################################################################################
+
+
+
+import torch
+
+def test_triton_vs_torch():
+    results = {}
+
+    # 测试用例 1: 基本矩阵转置 (小矩阵)
+    size_m, d_head = 16, 16
+    out = wrapper(size_m, d_head)
+    results["test_case_1"] = out.clone()
+
+    # 测试用例 2: 非方形矩阵
+    size_m, d_head = 32, 64
+    out = wrapper(size_m, d_head)
+    results["test_case_2"] = out.clone()
+
+    return results
+
+
+# 运行测试
+result_gold = test_triton_vs_torch()
+# print(result_gold)
\ No newline at end of file
diff --git a/src/temp/matrix_vector_multip.py b/src/temp/matrix_vector_multip.py
new file mode 100644
index 0000000..a1597eb
--- /dev/null
+++ b/src/temp/matrix_vector_multip.py
@@ -0,0 +1,86 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def mv_kernel(
+    A, B, C,
+    N, M,
+    stride_a0, stride_a1,
+    stride_b0,
+    stride_c0,
+    BLOCK_N: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+):
+    pid_n = tl.program_id(0)
+
+    offs_n = pid_n * BLOCK_N + tl.arange(0, BLOCK_N)
+    offs_m = tl.arange(0, BLOCK_M)
+
+    accumulator = tl.zeros((BLOCK_N,), dtype=tl.float32)
+
+    for k in range(0, M, BLOCK_M):
+        offs_k = k + offs_m
+        mask_a = (offs_n[:, None] < N) & (offs_k[None, :] < M)
+        a_ptrs = A + offs_n[:, None] * stride_a0 + offs_k[None, :] * stride_a1
+        a = tl.load(a_ptrs, mask=mask_a, other=0.0).to(tl.float32)
+
+        mask_b = offs_k < M
+        b_ptrs = B + offs_k * stride_b0
+        b = tl.load(b_ptrs, mask=mask_b, other=0.0).to(tl.float32)
+
+        accumulator += tl.sum(a * b[None, :], axis=1)
+
+    mask_c = offs_n < N
+    c_ptrs = C + offs_n * stride_c0
+    tl.store(c_ptrs, accumulator.to(C.type.element_ty), mask=mask_c)
+
+
+def mv(A: torch.Tensor, B: torch.Tensor):
+    assert A.dim() == 2
+    assert B.dim() == 1
+    N, M = A.shape
+    assert B.shape[0] == M
+
+    C = torch.empty((N,), dtype=A.dtype, device=A.device)
+
+    BLOCK_N = 64
+    BLOCK_M = 64
+
+    grid = lambda meta: (triton.cdiv(N, meta['BLOCK_N']),)
+
+    mv_kernel[grid](
+        A, B, C,
+        N, M,
+        A.stride(0), A.stride(1),
+        B.stride(0),
+        C.stride(0),
+        BLOCK_N=BLOCK_N,
+        BLOCK_M=BLOCK_M,
+    )
+
+    return C
+
+##################################################################################################################################################
+
+
+
+def test_mv():
+    # 测试用例 2: 4x3 矩阵与 3x1 向量相乘
+    A = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0], [10.0, 11.0, 12.0]], device='cuda')
+    B = torch.tensor([1.0, 2.0, 3.0], device='cuda')
+    triton_result_2 = mv(A, B)
+
+    # 测试用例 3: 32x16 矩阵与 16x1 向量相乘
+    A = torch.randn(32, 16, device='cuda')
+    B = torch.randn(16, device='cuda')
+    triton_result_3 = mv(A, B)
+
+    return {
+        "test_case_2": triton_result_2,
+        "test_case_3": triton_result_3,
+    }
+
+result_gold = test_mv()
diff --git a/src/temp/rotary_transform.py b/src/temp/rotary_transform.py
new file mode 100644
index 0000000..3705695
--- /dev/null
+++ b/src/temp/rotary_transform.py
@@ -0,0 +1,254 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def rotary_kernel(
+    OUT,
+    X,
+    COS,
+    SIN,
+    CU_SEQLENS,
+    SEQLENS,
+    SEQLEN_OFFSETS,
+    max_seqlens,
+    stride_outb,
+    stride_outh,
+    stride_outm,
+    stride_outk,
+    stride_xb,
+    stride_xh,
+    stride_xm,
+    stride_xk,
+    stride_cosb,
+    stride_coss,
+    stride_cosk,
+    stride_sinb,
+    stride_sins,
+    stride_sink,
+    rotary_dim,
+    seqlen_offsets_ptr,
+    conjugate: tl.constexpr,
+    interleaved: tl.constexpr,
+    seqlen_ro: tl.constexpr,
+    stride_outg: tl.constexpr,
+    stride_xg: tl.constexpr,
+    max_sequence_length: tl.constexpr,
+    BLOCK_M: tl.constexpr,
+    BLOCK_K: tl.constexpr,
+):
+    pid_batch = tl.program_id(0)
+    pid_head = tl.program_id(1)
+    pid_m = tl.program_id(2)
+
+    if CU_SEQLENS is not None:
+        cu_seqlen_batch = pid_batch
+        cu_seqlen_prev = tl.load(CU_SEQLENS + cu_seqlen_batch)
+        cu_seqlen_curr = tl.load(CU_SEQLENS + cu_seqlen_batch + 1)
+        seqlen = cu_seqlen_curr - cu_seqlen_prev
+        offset_m_start = cu_seqlen_prev + pid_m * BLOCK_M
+    else:
+        seqlen_curr = tl.load(SEQLENS + pid_batch)
+        seqlen = seqlen_curr
+        offset_m_start = pid_m * BLOCK_M
+
+    if seqlen <= 0:
+        return
+
+    offset_k = tl.arange(0, BLOCK_K)
+    m_offset = offset_m_start + tl.arange(0, BLOCK_M)
+    m_mask = m_offset < seqlen
+
+    if rotary_dim != -1:
+        k_mask = offset_k < rotary_dim
+    else:
+        k_mask = offset_k < stride_outk
+
+    start_m = m_offset[:, None]
+    start_k = offset_k[None, :]
+
+    if SEQLEN_OFFSETS is not None and seqlen_offsets_ptr:
+        seqlen_offset = tl.load(SEQLEN_OFFSETS + pid_batch)
+    else:
+        seqlen_offset = 0
+
+    pos_m = start_m + seqlen_offset
+    pos_cos = pos_m % max_seqlens
+    pos_sin = pos_m % max_seqlens
+
+    cos_ptr = COS + pos_cos[:, None] * stride_cosb + start_k * stride_cosk
+    sin_ptr = SIN + pos_sin[:, None] * stride_sinb + start_k * stride_sink
+
+    cos = tl.load(cos_ptr, mask=m_mask[:, None] & k_mask[None, :])
+    sin = tl.load(sin_ptr, mask=m_mask[:, None] & k_mask[None, :])
+
+    x_ptr0 = X + pid_batch * stride_xb + pid_head * stride_xh + start_m * stride_xm + start_k * stride_xk
+    x_ptr1 = X + pid_batch * stride_xb + pid_head * stride_xh + start_m * stride_xm + (start_k + 1) * stride_xk
+
+    x0 = tl.load(x_ptr0, mask=m_mask[:, None] & k_mask[None, :])
+    x1 = tl.load(x_ptr1, mask=m_mask[:, None] & k_mask[None, :])
+
+    if interleaved:
+        o_real = x0 * cos - x1 * sin
+        o_imag = x1 * cos + x0 * sin
+        if conjugate:
+            o_imag = -o_imag
+        out_ptr0 = OUT + pid_batch * stride_outb + pid_head * stride_outh + start_m * stride_outm + start_k * stride_outk
+        out_ptr1 = OUT + pid_batch * stride_outb + pid_head * stride_outh + start_m * stride_outm + (start_k + 1) * stride_outk
+        tl.store(out_ptr0, o_real, mask=m_mask[:, None] & k_mask[None, :])
+        tl.store(out_ptr1, o_imag, mask=m_mask[:, None] & k_mask[None, :])
+    else:
+        cos_mask = start_k % 2 == 0
+        sin_mask = start_k % 2 == 1
+        x_even = tl.where(cos_mask, x0, 0.0)
+        x_odd = tl.where(sin_mask, x0, 0.0)
+        o_real = x_even * cos[None, :] - x_odd * sin[None, :]
+        if conjugate:
+            o_imag = x_odd * cos[None, :] + x_even * sin[None, :]
+        else:
+            o_imag = x_odd * cos[None, :] + x_even * sin[None, :]
+        out_ptr0 = OUT + pid_batch * stride_outb + pid_head * stride_outh + start_m * stride_outm + start_k * stride_outk
+        tl.store(out_ptr0, tl.where(cos_mask[None, :], o_real, o_imag), mask=m_mask[:, None] & k_mask[None, :])
+
+
+def apply_rotary(
+    x: torch.Tensor,
+    cos: torch.Tensor,
+    sin: torch.Tensor,
+    seqlen_offsets: int = 0,
+    cu_seqlens: torch.Tensor = None,
+    max_seqlen: int = None,
+    interleaved: bool = False,
+    in_place: bool = False,
+    conjugate: bool = False,
+    seqlen_ro: int = None,
+) -> torch.Tensor:
+    assert x.dim() >= 3
+    batch = x.shape[0]
+    seqlen = x.shape[-2]
+    head = x.shape[-3] if x.dim() >= 4 else 1
+    dim = x.shape[-1]
+    rotary_dim = cos.shape[-1] if cos is not None else dim
+
+    if max_seqlen is None:
+        max_seqlen = seqlen
+    assert cos is not None and sin is not None
+    assert cos.dim() == 3 and sin.dim() == 3
+    cos = cos.view(-1, max_seqlen, rotary_dim)
+    sin = sin.view(-1, max_seqlen, rotary_dim)
+
+    stride_outb = x.stride(0) if x.dim() >= 3 else 0
+    stride_outh = x.stride(-3) if x.dim() >= 4 else 0
+    stride_outm = x.stride(-2)
+    stride_outk = x.stride(-1)
+    stride_xb = x.stride(0) if x.dim() >= 3 else 0
+    stride_xh = x.stride(-3) if x.dim() >= 4 else 0
+    stride_xm = x.stride(-2)
+    stride_xk = x.stride(-1)
+    stride_cosb = cos.stride(0)
+    stride_coss = cos.stride(1)
+    stride_cosk = cos.stride(2)
+    stride_sinb = sin.stride(0)
+    stride_sins = sin.stride(1)
+    stride_sink = sin.stride(2)
+
+    seqlen_offsets_tensor = torch.tensor([seqlen_offsets], dtype=torch.int32, device=x.device) if isinstance(seqlen_offsets, int) else seqlen_offsets
+
+    if in_place:
+        out = x
+    else:
+        out = torch.empty_like(x)
+
+    grid = (batch, head, (seqlen + 63) // 64)
+
+    rotary_kernel[grid](
+        out,
+        x,
+        cos,
+        sin,
+        cu_seqlens,
+        torch.tensor([seqlen], dtype=torch.int32, device=x.device) if cu_seqlens is None else None,
+        seqlen_offsets_tensor,
+        torch.tensor([max_seqlen], dtype=torch.int32, device=x.device) if max_seqlen is not None else torch.tensor([seqlen], dtype=torch.int32, device=x.device),
+        stride_outb,
+        stride_outh,
+        stride_outm,
+        stride_outk,
+        stride_xb,
+        stride_xh,
+        stride_xm,
+        stride_xk,
+        stride_cosb,
+        stride_coss,
+        stride_cosk,
+        stride_sinb,
+        stride_sins,
+        stride_sink,
+        rotary_dim,
+        seqlen_offsets_tensor is not None,
+        conjugate=conjugate,
+        interleaved=interleaved,
+        seqlen_ro=seqlen_ro if seqlen_ro is not None else seqlen,
+        stride_outg=1,
+        stride_xg=1,
+        max_sequence_length=max_seqlen if max_seqlen is not None else seqlen,
+        BLOCK_M=64,
+        BLOCK_K=rotary_dim,
+    )
+
+    if out.dim() == 2:
+        out = out.unsqueeze(0)
+    return out
+
+##################################################################################################################################################
+
+
+
+import torch
+
+def test_apply_rotary():
+    results = {}
+    
+    # Test case 1: Basic test with fixed sequence length and no interleaving
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+    rotary_dim = 32
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+    output = apply_rotary(x, cos, sin)
+    results['test_case_1'] = output.shape
+
+    # Test case 2: Variable length sequences with interleaving
+    total_seqlen, nheads, headdim = 256, 4, 64
+    batch = 3
+    cu_seqlens = torch.tensor([0, 100, 200, 256], device='cuda')
+    max_seqlen = 128
+    rotary_dim = 32
+    x = torch.randn(total_seqlen, nheads, headdim, device='cuda')
+    cos = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+    sin = torch.randn(max_seqlen, rotary_dim // 2, device='cuda')
+    output = apply_rotary(x, cos, sin, cu_seqlens=cu_seqlens, max_seqlen=max_seqlen, interleaved=True)
+    results['test_case_2'] = output.shape
+
+    # Test case 3: Conjugate flag enabled
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+    rotary_dim = 32
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+    output = apply_rotary(x, cos, sin, conjugate=True)
+    results['test_case_3'] = output.shape
+
+    # Test case 4: Inplace operation
+    batch, seqlen, nheads, headdim = 2, 128, 4, 64
+    rotary_dim = 32
+    x = torch.randn(batch, seqlen, nheads, headdim, device='cuda')
+    cos = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+    sin = torch.randn(seqlen, rotary_dim // 2, device='cuda')
+    output = apply_rotary(x, cos, sin, inplace=True)
+    results['test_case_4'] = output.shape
+
+    return results
+
+result_gold = test_apply_rotary()
diff --git a/src/temp/sin_kernel.py b/src/temp/sin_kernel.py
new file mode 100644
index 0000000..1563a97
--- /dev/null
+++ b/src/temp/sin_kernel.py
@@ -0,0 +1,58 @@
+
+import torch
+import triton
+import triton.language as tl
+
+
+@triton.jit
+def kernel_function(x_ptr, output_ptr, n_elements: tl.constexpr, BLOCK_SIZE: tl.constexpr):
+    pid = tl.program_id(0)
+    block_start = pid * BLOCK_SIZE
+    offsets = block_start + tl.arange(0, BLOCK_SIZE)
+    mask = offsets < n_elements
+    x = tl.load(x_ptr + offsets, mask=mask)
+    y = tl.math.sin(x.to(tl.float32))
+    tl.store(output_ptr + offsets, y, mask=mask)
+
+
+def call_kernel(x: torch.Tensor, BLOCK_SIZE: int = 1024):
+    n_elements = x.numel()
+    output = torch.empty_like(x)
+    grid = lambda META: (triton.cdiv(n_elements, META["BLOCK_SIZE"]),)
+    kernel_function[grid](x, output, n_elements, BLOCK_SIZE=BLOCK_SIZE)
+    return output
+
+##################################################################################################################################################
+
+
+
+import torch
+
+# Function to test the Triton kernel
+def test_call_kernel():
+    results = {}
+    
+    # Test case 1: Small input tensor
+    x1 = torch.tensor([0.0, 1.0, 2.0, 3.0], dtype=torch.float32).cuda()
+    output1 = call_kernel(x1)
+    results['test_case_1'] = output1
+    
+    # Test case 2: Larger input tensor
+    x2 = torch.linspace(0, 10, steps=1024, dtype=torch.float32).cuda()
+    output2 = call_kernel(x2)
+    results['test_case_2'] = output2
+
+    # Test case 3: Edge case with zero elements
+    x3 = torch.tensor([], dtype=torch.float32).cuda()
+    output3 = call_kernel(x3)
+    results['test_case_3'] = output3
+
+    # Test case 4: Input tensor with negative values
+    x4 = torch.tensor([-1.0, -2.0, -3.0, -4.0], dtype=torch.float32).cuda()
+    output4 = call_kernel(x4)
+    results['test_case_4'] = output4
+    
+    return results
+
+# Run the test function
+result_gold = test_call_kernel()
diff --git a/src/temp/triton_matmul.py b/src/temp/triton_matmul.py
new file mode 100644
index 0000000..a9ecde2
--- /dev/null
+++ b/src/temp/triton_matmul.py
@@ -0,0 +1,130 @@
+
+import torch
+import triton
+import triton.language as tl
+
+@triton.jit
+def matmul_kernel(
+    a_ptr, b_ptr, c_ptr,            # pointers
+    M, N, K,                        # shape (M, K) @ (K, N) --> (M, N)
+    stride_am, stride_ak,           # a row/col
+    stride_bk, stride_bn,           # b row/col
+    stride_cm, stride_cn,           # c row/col
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_N: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+    GROUP_SIZE_M: tl.constexpr,
+    IS_EVEN_K: tl.constexpr = 0,
+):
+    pid = tl.program_id(axis=0)
+    num_pid_m = tl.cdiv(M, BLOCK_SIZE_M)
+    num_pid_n = tl.cdiv(N, BLOCK_SIZE_N)
+    num_pid_in_group = GROUP_SIZE_M * num_pid_n
+    group_id = pid // num_pid_in_group
+    first_pid_m = group_id * GROUP_SIZE_M
+    group_size_m = min(num_pid_m - first_pid_m, GROUP_SIZE_M)
+    pid_m = first_pid_m + (pid % group_size_m)
+    pid_n = (pid % num_pid_in_group) // group_size_m
+
+    offs_am = (pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)) % M
+    offs_bn = (pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)) % N
+    offs_k = tl.arange(0, BLOCK_SIZE_K)
+
+    a_ptrs = a_ptr + (offs_am[:, None] * stride_am + offs_k[None, :] * stride_ak)
+    b_ptrs = b_ptr + (offs_k[:, None] * stride_bk + offs_bn[None, :] * stride_bn)
+
+    accumulator = tl.zeros((BLOCK_SIZE_M, BLOCK_SIZE_N), dtype=tl.float32)
+
+    for k in range(0, tl.cdiv(K, BLOCK_SIZE_K)):
+        if IS_EVEN_K:
+            a = tl.load(a_ptrs)
+            b = tl.load(b_ptrs)
+        else:
+            mask_k = offs_k[None, :] < K - k * BLOCK_SIZE_K
+            a = tl.load(a_ptrs, mask=mask_k, other=0.0)
+            b = tl.load(b_ptrs, mask=mask_k[:, None], other=0.0)
+
+        accumulator += tl.dot(a, b)
+        a_ptrs += BLOCK_SIZE_K * stride_ak
+        b_ptrs += BLOCK_SIZE_K * stride_bk
+
+    c = accumulator.to(tl.float16)
+
+    offs_cm = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    offs_cn = pid_n * BLOCK_SIZE_N + tl.arange(0, BLOCK_SIZE_N)
+    c_ptrs = c_ptr + stride_cm * offs_cm[:, None] + stride_cn * offs_cn[None, :]
+
+    mask = (offs_cm[:, None] < M) & (offs_cn[None, :] < N)
+    tl.store(c_ptrs, c, mask=mask)
+
+def matmul(a: torch.Tensor, b: torch.Tensor):
+    assert a.shape[1] == b.shape[0], "Incompatible dimensions"
+    M, K = a.shape
+    K, N = b.shape
+    c = torch.empty((M, N), device=a.device, dtype=a.dtype)
+
+    def grid(META):
+        return (triton.cdiv(M, META['BLOCK_SIZE_M']) * triton.cdiv(N, META['BLOCK_SIZE_N']), )
+
+    BLOCK_M = 128
+    BLOCK_N = 256
+    BLOCK_K = 32
+    num_stages = 4
+    num_warps = 8
+
+    if str(a.dtype) == 'torch.float16':
+        BLOCK_M = 128
+        BLOCK_N = 256
+        BLOCK_K = 32
+        num_stages = 4
+        num_warps = 8
+    elif 'float8' in str(a.dtype):
+        BLOCK_M = 128
+        BLOCK_N = 128
+        BLOCK_K = 128
+        num_stages = 3
+        num_warps = 4
+    else:
+        BLOCK_M = 64
+        BLOCK_N = 64
+        BLOCK_K = 32
+        num_stages = 2
+        num_warps = 4
+
+    matmul_kernel[grid](
+        a, b, c,
+        M, N, K,
+        a.stride(0), a.stride(1),
+        b.stride(0), b.stride(1),
+        c.stride(0), c.stride(1),
+        BLOCK_SIZE_M=BLOCK_M,
+        BLOCK_SIZE_N=BLOCK_N,
+        BLOCK_SIZE_K=BLOCK_K,
+        GROUP_SIZE_M=8,
+        IS_EVEN_K=K % BLOCK_K == 0,
+        num_stages=num_stages,
+        num_warps=num_warps,
+    )
+    return c
+
+##################################################################################################################################################
+
+
+
+import torch
+
+# Test for matmul
+def test_matmul():
+    results = {}
+    M, K, N = 256, 128, 256
+
+    # Test case 1: torch.float16
+    a = torch.randn((M, K), dtype=torch.float16, device='cuda')
+    b = torch.randn((K, N), dtype=torch.float16, device='cuda')
+    c = matmul(a, b)
+    results['test_case_1'] = c
+
+    return results
+
+# Run all tests
+result_gold = test_matmul()
\ No newline at end of file
diff --git a/src/utils/__pycache__/utils.cpython-312.pyc b/src/utils/__pycache__/utils.cpython-312.pyc
index 5240a44343db32ccd23713863f8a830c080e8631..7e3b0da91d0e92cbfd97d0210a8ce9eded91e7a2 100644
GIT binary patch
delta 20
acmeAY?h@uc&CAQh00hh8S8e33=L7&Vss$(j

delta 20
acmeAY?h@uc&CAQh00aebb2f6<a{>S{<OJgY