PySpark OSSEC 开发

Python开发环境（虚拟环境）

python3.10 -m venv .env
source .env/bin/activate

PySpark环境

安装兼容组合（重点确保 grpcio-status ≥1.48.1）

pip3 install protobuf==6.32
pip3 install grpcio==1.74
pip3 install grpcio-status==1.74
pip3 install googleapis-common-protos

安装开发需求库

pip3 install pyspark==3.5.6
pip3 install pandas
pip3 install pyarrow
pip3 install confluent-kafka confluent-kafka底层基于C语言实现，高效率运行

项目说明

1、本项目是使用pyspark connect 连接 spark 集群开发
2、首先将数据发送至 kafka，示例：src/helper/kafka_producer.py
3、从 kafka 接受数据，并使用 pyspark进行数据处理，示例：src/linux_syslog_processor.py
4、pyspark 数据处理获取正则 src/hpspark/regular/xxx.py 获取对于规则，并将此广播表到所有节点
5、logs 处理正则使用AI进行正则编译补充

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
docker.kafka		docker.kafka
docker.spark		docker.spark
src		src
.gitignore		.gitignore
README.md		README.md
test.md		test.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

PySpark OSSEC 开发

Python开发环境（虚拟环境）

PySpark环境

安装兼容组合（重点确保 grpcio-status ≥1.48.1）

安装开发需求库

项目说明

About

Uh oh!

Releases

Packages

Languages

broshaun/pyspark_ossec

Folders and files

Latest commit

History

Repository files navigation

PySpark OSSEC 开发

Python开发环境（虚拟环境）

PySpark环境

安装兼容组合（重点确保 grpcio-status ≥1.48.1）

安装开发需求库

项目说明

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages