Skip to content

broshaun/pyspark_ossec

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PySpark OSSEC 开发

Python开发环境(虚拟环境)

  • python3.10 -m venv .env
  • source .env/bin/activate

PySpark环境

安装兼容组合(重点确保 grpcio-status ≥1.48.1)

  • pip3 install protobuf==6.32
  • pip3 install grpcio==1.74
  • pip3 install grpcio-status==1.74
  • pip3 install googleapis-common-protos

安装开发需求库

  • pip3 install pyspark==3.5.6
  • pip3 install pandas
  • pip3 install pyarrow
  • pip3 install confluent-kafka confluent-kafka底层基于C语言实现,高效率运行

项目说明

1、本项目是使用pyspark connect 连接 spark 集群开发
2、首先将数据发送至 kafka,示例:src/helper/kafka_producer.py
3、从 kafka 接受数据,并使用 pyspark进行数据处理,示例:src/linux_syslog_processor.py
4、pyspark 数据处理获取正则 src/hpspark/regular/xxx.py 获取对于规则,并将此广播表到所有节点
5、logs 处理正则使用AI进行正则编译补充

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published