分享
2023年爬虫接入规范.doc
下载文档

ID:1239746

大小:13.50KB

页数:2页

格式:DOC

时间:2023-04-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2023 爬虫 接入 规范
爬虫接入标准 爬虫接入标准 修订历史 日期 修改说明 部门 修改人 2023.06.12 大数据中心 李永波 数据接入需求 基于数据采集需求,初步判断数据的接入源是否从业务数据库中获取。 联系技术研发部同事,请求数据源接入的位置参数,通过配置化方式到达将数据从业务系统拉取、装载到数据仓库贴源层的目的。 数据接入流程 1. 与爬虫组和平台组进行沟通,确定提供数据的方式〔数据库、文件、接口等〕,让需求发起人补充详细的数据口径,补充到需求要求里面,指定数据仓库组或平台组的一个人进行转发。 2. 数据仓库组或平台组根据需求描述。跟数据源提供方〔可以是需求发起方、也可以是技术研发部门〕沟通,让其补充模板里的位置参数。 3. 数据源提供方根据模板要求,提供位置配置参数。 4. 数据仓库组或平台组根据已经得到的位置参数、需求数据指标等信息,设计接入模型和抽取参数。 5. 数据仓库组或平台组在接入数据后,整理数据格式,制定清洗转换规那么,并补充装载目标表信息。 数据源接入模板 需求要求〔仓库组补充〕tapd需求单号:1002513 提起人:陈炳贵(Richard.chen) 需求单号内容:??? 提供数据方式:数据库、文件、接口 详细的数据口径:??? 位置配置参数〔平台部补充〕配置参数 参数取值 效劳器地址 必填 数据库端口 必填 数据库名称 必填 用户名 必填 密码 必填 表名 必填,test1 必填,test2 取数口径〔sql或者文字说明〕选填,单表局部字段、多表关联的请填写。 接入模型字段〔仓库组补填〕字段名 注释 字段类型 源表字段 必填 必填 必填 必填 必填 必填 必填 必填 抽取参数〔仓库组补填〕配置参数 参数取值 抽数周期 每天 抽数时间 7:00 增量标识 1:全量,2:增量 数据日期格式 增量数据,需要提供数据日期格式,可选如下。 时间戳 Yyyymmdd Yyyy-mm-dd 清洗转换规那么〔仓库组补填〕由仓库组补充,不限于数据清洗过滤、字段编码转换、敏感信息转换、接入阀值设置等等。 装载目标表〔仓库组补填〕配置参数 参数取值 stg层表名称 必填 stg层表描述 必填 ods层表名称 必填 ods层表描述 必填 取数位置〔平台组组补充,仓库组验收〕密码等验证信息私下提供。 数据库方式:数据库连接方式:表名:字段名 注释 字段类型 必填 必填 必填 必填 必填 必填 文件方式:效劳器位置:ip:port 文件位置: 接口方式:接口URL:

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开