Add llm as judge mt-bench dataset and metrics #553

	name: Test HELM Integration

	on:
	push:
	branches: [ main ]
	pull_request:
	branches: [ main ]

	jobs:
	test-helm:

	runs-on: ubuntu-latest
	env:
	OS: ubuntu-latest

	steps:
	- uses: actions/checkout@v4
	- uses: actions/setup-python@v5
	with:
	python-version: '3.8'
	cache: 'pip' # caching pip dependencies
	- run: pip install --upgrade 'crfm-helm[unitxt]>=0.5.0'

	- name: Test Helm
	run: utils/run_helm.sh

Provide feedback