🥱Home
  • /Posts🗯
  • /ARCHIVES🕑
  • /TAGS🚦
  • /SEARCH🔍
  • /ABOUT🌞
主页 » /posts (部分笔记已迁移至Obsidian)

BigData 数据科学与大数据技术

Hadoop, Spark, HBase

(更新中)Hadoop自动部署脚本

Hadoop自动化部署shell脚本 仓库地址 https://github.com/foryyz/HadoopDeploymentScript 参考文献 2020年, hadoop环境部署自动化shell脚本(伪分布式、完全分布式集群搭建) 2018年, 使用Shell脚本一键部署Hadoop

2025-09-26 · yyz

一个基于selenium的半自动淘宝爬虫脚本

TaoBao Crawler 测试环境 Mac OS python=3.12 浏览器=Edge 运行方法 下载自己浏览器对应的selenium webdriver内核,替换run.py中的EDGE_DRIVER_PATH参数 (不懂问大模型) 执行run.py,第一次执行需要手动登陆,登陆后在终端输入save保存cookie,这样以后使用程序就能自动登录了 登陆完成后 在浏览器手动搜索商品(请确保商品不止一页数据) 搜索完成后在终端输入start和爬取的页数, 程序会自动完成翻页 保存渲染的html文件 爬取html文件后,执行save2csv.py文件对数据进行提取 (可以自己更新save2csv.py提取想要的字段) [!NOTE] ...

2025-09-26 · yyz

[栏目](CentOS) HadoopHA完整数据采集与分析流程

2025-05-20 · yyz