- python3.10 -m venv .env
- source .env/bin/activate
- pip3 install protobuf==6.32
- pip3 install grpcio==1.74
- pip3 install grpcio-status==1.74
- pip3 install googleapis-common-protos
- pip3 install pyspark==3.5.6
- pip3 install pandas
- pip3 install pyarrow
- pip3 install confluent-kafka
confluent-kafka底层基于C语言实现,高效率运行
1、本项目是使用pyspark connect 连接 spark 集群开发
2、首先将数据发送至 kafka,示例:src/helper/kafka_producer.py
3、从 kafka 接受数据,并使用 pyspark进行数据处理,示例:src/linux_syslog_processor.py
4、pyspark 数据处理获取正则 src/hpspark/regular/xxx.py 获取对于规则,并将此广播表到所有节点
5、logs 处理正则使用AI进行正则编译补充