688787
_2022_
海天瑞声
2022
年年
报告
_2023
04
24
2022 年年度报告 1/283 公司代码:688787 公司简称:海天瑞声 北京海天瑞声科技股份有限公司北京海天瑞声科技股份有限公司 20222022 年年度报告年年度报告 2022 年年度报告 2/283 重要提示重要提示 一、一、本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性性、准确、准确性性、完整完整性性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。二、二、公司上市时未盈利且尚未实现盈利公司上市时未盈利且尚未实现盈利 是 否 三、三、重大风险提示重大风险提示 公司已在本报告中详细描述可能存在的风险,敬请查阅“第三节管理层讨论与分析”(之四)“风险因素”部分,请投资者注意投资风险。四、四、公司公司全体董事出席全体董事出席董事会会议。董事会会议。五、五、信永中和会计师事务所(特殊普通合伙)信永中和会计师事务所(特殊普通合伙)为本公司出具了为本公司出具了标准无保留意见标准无保留意见的审计报告。的审计报告。六、六、公司负责人公司负责人贺琳贺琳、主管会计工作负责人、主管会计工作负责人吕思遥吕思遥及会计机构负责人(会计主管人员)及会计机构负责人(会计主管人员)杨韩杨韩声明:声明:保证年度报告中财务报告的真实、准确、完整。保证年度报告中财务报告的真实、准确、完整。七、七、董事会董事会决议通过的本报告期利润分配预案或公积金转增股本预案决议通过的本报告期利润分配预案或公积金转增股本预案 经公司第二届董事会第十三次会议审议,公司 2022 年度利润分配方案拟定如下:拟以实施权益分派股权登记日登记的总股本为基数分配利润,向全体股东每 10 股派发现金股利 6 元(含税),截至 2022 年 12 月 31 日,公司总股本 42,800,000 股,以此计算合计拟分派现金红利 25,680,000 元(含税),现金分红比例为 87.19%;同时以资本公积向全体股东每 10 股转增 4 股,合计转增 17,120,000 股,转增后公司总股本增加至 59,920,000 股。2022 年度利润分配及资本公积转增股本预案披露后至实施权益分派的股权登记日期间,若公司总股本发生变动,公司拟维持每股现金分红金额不变,相应调整现金分红总额;同时拟维持每股转增比例不变,相应调整转增股本总额。上述利润分配方案尚需提交公司 2022 年年度股东大会审议通过。八、八、是否是否存在存在公司治理特殊安排等重要事项公司治理特殊安排等重要事项 适用 不适用 2022 年年度报告 3/283 九、九、前瞻性陈述的风险声明前瞻性陈述的风险声明 适用 不适用 本报告中所涉及的未来计划、发展战略等前瞻性陈述,不构成本公司对投资者的承诺,敬请投资者注意投资风险。十、十、是否存在被控股股东及其是否存在被控股股东及其他他关联方非经营性占用资金情况关联方非经营性占用资金情况 否 十一、十一、是否存在违反规定决策程序对外提供担保的情况是否存在违反规定决策程序对外提供担保的情况 否 十二、十二、是否存在半数是否存在半数以上以上董事无法保证公司所披露年度报告的真实性、准确性和完整性董事无法保证公司所披露年度报告的真实性、准确性和完整性 否 十三、十三、其他其他 适用 不适用 2022 年年度报告 4/283 目录目录 第一节 释义.5 第二节 公司简介和主要财务指标.8 第三节 管理层讨论与分析.14 第四节 公司治理.73 第五节 环境、社会责任和其他公司治理.97 第六节 重要事项.104 第七节 股份变动及股东情况.143 第八节 优先股相关情况.155 第九节 债券相关情况.156 第十节 财务报告.157 备查文件目录 载有公司负责人、主管会计工作负责人、会计机构负责人(会计主管人员)签名并盖章的财务报表 载有会计师事务所盖章、注册会计师签名并盖章的审计报告原件 报告期内公开披露过的所有公司文件的正本及公告的原稿 2022 年年度报告 5/283 第一节第一节 释义释义 一、一、释义释义 在本报告书中,除非文义另有所指,下列词语具有如下含义:常用词语释义 本公司、公司、海天瑞声 指 北京海天瑞声科技股份有限公司 控股股东、实际控制人 指 贺琳 中瑞安 指 北京中瑞安投资中心(有限合伙),为公司股东 中瑞立 指 北京中瑞立投资中心(有限合伙),为公司股东 创慧科瑞 指 北京创慧科瑞投资管理有限公司,为北京中瑞立投资中心(有限合伙)普通合伙人、执行事务合伙人 创世联合 指 北京创世联合投资管理有限公司,为北京中瑞安投资中心(有限合伙)普通合伙人、执行事务合伙人 中移投资 指 中移投资控股有限责任公司,为公司的股东 清德投资 指 北京清德投资中心(有限合伙),为公司的股东 上海丰琬 指 上海丰琬投资合伙企业(有限合伙),为公司的股东 上海兴富 指 上海兴富创业投资管理中心(有限合伙),为公司的股东 中网投 指 中国互联网投资基金(有限合伙),为公司的股东 天津金星 指 天津金星创业投资有限公司,为公司的股东 杭州银杏数 指 杭州银杏数股权投资合伙企业(有限合伙),为公司的股东 杭州士兰 指 杭州士兰创业投资有限公司,为公司的股东 芜湖青和 指 芜湖朗姿青和一号股权投资合伙企业(有限合伙),为公司的股东 芜湖博信 指 芜湖博信五号股权投资合伙企业(有限合伙),为公司的股东 Appen 指 Appen Limited,是一家成立于澳大利亚的训练数据产品和服务提供商 数据堂 指 数据堂(北京)科技股份有限公司 标贝科技 指 标贝(北京)科技有限公司,是一家国内同行业的训练数据产品和服务提供商 证监会 指 中国证券监督管理委员会 上交所 指 上海证券交易所 工信部 指 中华人民共和国工业和信息化部 公司法 指 中华人民共和国公司法 证券法 指 中华人民共和国证券法 上市规则 指 上海证券交易所科创板股票上市规则 公司章程 指 北京海天瑞声科技股份有限公司章程 个人信息保护法 指 中华人民共和国个人信息保护法 报告期 指 2022 年 1 月 1 日至 2022 年 12 月 31 日 华泰联合证券 指 华泰联合证券有限责任公司,公司保荐机构、持续督导机构 信永中和 指 信永中和会计师事务所(特殊普通合伙),公司审计机构 元、万元、亿元 指 如无特别说明,均以人民币为度量币种 训练数据 指 通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据 算法 指 解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法2022 年年度报告 6/283 代表着用系统的方法描述解决问题的策略机制 算力 指 计算能力 人工智能(AI)指 Artificial Intelligence,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学 机器学习 指 Machine Learning,是一门专门研究计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科 深度学习 指 Deep Learning,机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本 模型 指 为解决人工智能领域的相应问题,而专门设计的某种算法框架,并通过大量数据训练拟合来调整相应参数,最终得到能解决实际问题的一套算法和参数 引擎 指 是计算机平台上开发相应应用程序或软件系统的核心组件 鲁棒性 指 鲁棒性亦称稳健性、强健性,是指计算机软件/系统在异常和危险情况下生存的能力。例如,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性 智能语音 指 实现人机语言的通信,包括语音识别技术(ASR)和语音合成技术(TTS)语 音 识 别(ASR)指 Automatic Speech Recognition,是一种将语音信号自动转换为文本的技术,是实现智能人机交互的关键技术之一 语 音 合 成(TTS)指 Text to Speech,即“从文本到语音”,是一种将文字智能地转化为自然语音的技术 自然语言/自然 语 言 处 理(NLP)指 Natural Language Processing,是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法 计 算 机 视 觉(CV)指 Computer Vision,是一门研究如何使机器“看”的科学,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等 光学字符识别(OCR)指 是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程 IoT 指 物联网(IoT,Internet of things)即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与网络结合起来而形成的一个巨大网络,实现任何时间、任何地点,人、机、物的互联互通 智能驾驶 指 指的是机器帮助人进行驾驶,以及在特殊情况下完全取代人驾驶的技术 DMS 指 驾驶员监控系统,即 DMS(Driver Monitor System)OMS 指 乘客监控系统,即 OMS(Occupancy Monitor System)虚拟人 指 虚拟人(VirtualHuman)是通过建模、动作捕捉或 AI 等科技手段,制作出具有外貌特征和行为模式的虚拟形象,并通过显示设备呈现出来。虚拟人创造的价值主要是打破物理的空间限制,提供了更多沉浸感、参与感和互动感 原料数据 指 Raw Data,即未经加工处理的原始数据 采集 指 使用软件工具、录音设备、图像拍摄设备等收集、录制和获取原料数据的过程 标注 指 训练数据的生产步骤之一,指对原料数据进行加工,进而生成符合算法模型训练要求的训练数据的过程 转写 指 通过软件加工、人工听写等手段将语音片段转换为对应的文本的加工步骤 词性 指 以词的特点划分的词类,如名词、代词、动词、形容词、数词、量词2022 年年度报告 7/283 等 韵律 指 韵律通常指语音语句中各词之间的停顿时长情况 声纹 指 用电声学仪器显示的携带言语信息的声波频谱 音色 指 声音的特征,指的声音在波形方面具有的与众不同的特性 ITN 指 ITN(Inverse Text Normalization,逆文本正则化),将正则化的文本形式(例如:二零二二年二月十日)转换成书写体形式(例如:2022-02-10)AIGC 指 AI Generated Content,是指利用人工智能技术来生成内容。ChatGPT 指 美国 OpenAI 研发的聊天机器人程序,ChatGPT 是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。GPT-4 指 GPT-4 是 OpenAI 为聊天机器人 ChatGPT 发布的语言模型。GPT-4 的回答准确性不仅大幅提高,还具备更高水平的识图能力,且能够生成歌词、创意文本,实现风格变化。大模型 指 大模型就是 Foundation Model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。2022 年年度报告 8/283 第二节第二节 公司简介和主要财务指标公司简介和主要财务指标 一、一、公司基本情况公司基本情况 公司的中文名称 北京海天瑞声科技股份有限公司 公司的中文简称 海天瑞声 公司的外文名称 Beijing Haitian Ruisheng Science Technology Ltd.公司的外文名称缩写 Speechocean 公司的法定代表人 贺琳 公司注册地址 北京市海淀区成府路28号4-801 公司注册地址的历史变更情况 2012年9月14日,公司地址由北京市海淀区知春路甲48号3号楼4单元6B变更为北京市海淀区成府路28号4-801 公司办公地址 北京市海淀区成府路28号4-801 公司办公地址的邮政编码 100083 公司网址 电子信箱 二、二、联系人和联系方式联系人和联系方式 董事会秘书(信息披露境内代表)证券事务代表 姓名 吕思遥 张哲 联系地址 北京市海淀区成府路28号4-801 北京市海淀区成府路28号4-801 电话 010-62660772 010-62660772 传真 010-62660892 010-62660892 电子信箱 三、三、信息披露及备置地点信息披露及备置地点 公司披露年度报告的媒体名称及网址 中国证券报()、上海证券报()、证券日报()、证券时报()公司披露年度报告的证券交易所网址 公司年度报告备置地点 公司董事会办公室 四、四、公司股票公司股票/存托凭证简况存托凭证简况 (一一)公司股票简况公司股票简况 适用 不适用 公司股票简况 股票种类 股票上市交易所及板块 股票简称 股票代码 变更前股票简称 人民币普通股(A股)上海证券交易所科创板 海天瑞声 688787 不适用 2022 年年度报告 9/283 (二二)公司公司存托凭证存托凭证简简况况 适用 不适用 五、五、其他相关资料其他相关资料 公司聘请的会计师事务所(境内)名称 信永中和会计师事务所(特殊普通合伙)办公地址 北京市东城区朝阳门北大街8号富华大厦A座 8 层 签字会计师姓名 梅秀琴、庞博 报告期内履行持续督导职责的保荐机构 名称 华泰联合证券有限责任公司 办公地址 北京市西城区丰盛胡同 22 号丰铭国际大厦A 座 6 层 签字的保荐代表人姓名 张鹏、葛青 持续督导的期间 2021 年 8 月 13 日-2024 年 12 月 31 日 六、六、近三年主要会计数据和财务指标近三年主要会计数据和财务指标(一一)主要会计数据主要会计数据 单位:元 币种:人民币 主要会计数据 2022年 2021年 本期比上年同期增减(%)2020年 营业收入 262,887,869.44 206,476,533.04 27.32 233,373,953.01 归属于上市公司股东的净利润 29,454,139.23 31,605,431.79-6.81 82,081,021.91 归属于上市公司股东的扣除非经常性损益的净利润 10,149,073.69 21,067,433.20-51.83 73,015,355.36 经营活动产生的现金流量净额 30,658,908.30-15,548,319.63 不适用 51,176,659.14 2022年末 2021年末 本期末比上年同期末增减(%)2020年末 归属于上市公司股东的净资产 829,522,849.25 805,908,403.05 2.93 437,956,372.58 总资产 876,927,792.15 840,663,396.09 4.31 477,350,038.99 (二二)主要财务指标主要财务指标 主要财务指标 2022年 2021年 本期比上年同期增减(%)2020年 基本每股收益(元股)0.69 0.89-22.47 2.56 稀释每股收益(元股)0.69 0.89-22.47 2.56 扣除非经常性损益后的基本每股收益(元股)0.24 0.59-59.32 2.27 加权平均净资产收益率(%)3.61 5.59 减少1.98个百分点 20.68 扣除非经常性损益后的加权平均净资产收益率(%)1.24 3.72 减少2.48个百分点 18.39 研发投入占营业收入的比例(%)35.86 29.31 增加6.55个百分点 18.64 2022 年年度报告 10/283 报告期末公司前三年主要会计数据和财务指标的说明 适用 不适用 (1)报告期内,受益于公司全球化战略得以恢复实施,以及公司智能驾驶数据业务取得显著成效的背景下,公司收入较去年同期增长 27.32%,达到 2.63 亿元。但同时,公司为加速提升智能驾驶数据服务能力、整体数据生产的智能化水平,以及推进数据集产品扩充建设计划等,持续加大研发投入;同时完成管理架构及激励体系升级、全球化营销体系建设、新办公楼购置等重要事项,共同造成期间费用大幅增长。以上均导致归属于上市公司股东的净利润小幅下降,同时,报告期内,公司收到的政府补助以及理财收益持续增加,2022 年度非经常性损益金额较 2021 年同比显著上涨,以上因素共同作用,导致公司扣除非经常性损益的净利润在报告期内出现明显下滑。(2)报告期内,经营活动产生的现金流量净额为 3,065.89 万元,较上年同期增长 4,620.72 万元。主要系 2022 年度公司收入同比增幅明显、达到 27.32%,同时公司加强回款考核力度、客户回款效率同比回升所致。(3)报告期内,扣除非经常性损益后的基本每股收益为 0.24 元,较去年同期减少 59.32%,主要系报告期内,公司为加速提升智能驾驶数据服务能力、整体数据生产的智能化水平,以及推进数据集产品扩充建设计划等,持续加大研发投入;同时完成管理架构及激励体系升级、全球化营销体系建设、新办公楼购置等重要事项,共同造成期间费用大幅增长。以上均导致归属于上市公司股东的净利润小幅下降,同时,报告期内,公司收到的政府补助以及理财收益持续增加,2022年度非经常性损益金额较 2021 年同比显著上涨,以上因素共同作用,导致公司扣除非经常性损益的净利润在报告期内出现明显下滑,继而导致扣除非经常性损益后的基本每股收益显著下降。七、七、境内外会计准则下会计数据差异境内外会计准则下会计数据差异(一一)同时按照国际会计准则与按中国会计准则披露的财务报告中净利润和归属于上市公司股东同时按照国际会计准则与按中国会计准则披露的财务报告中净利润和归属于上市公司股东的净资产差异情况的净资产差异情况 适用 不适用 (二二)同时按照境外会计准则与按中国会计准则披露的财务报告中净利润和同时按照境外会计准则与按中国会计准则披露的财务报告中净利润和归归属于上市公司股东的属于上市公司股东的净资产差异情况净资产差异情况 适用 不适用 (三三)境内外会计准则差异的说明:境内外会计准则差异的说明:适用 不适用 八、八、2022 年分季度主要财务数据年分季度主要财务数据 单位:元 币种:人民币 第一季度(1-3 月份)第二季度(4-6 月份)第三季度(7-9 月份)第四季度(10-12 月份)2022 年年度报告 11/283 营业收入 47,876,427.23 66,908,014.75 52,375,032.05 95,728,395.41 归属于上市公司股东的净利润 9,437,853.93 9,987,521.73-794,570.29 10,823,333.86 归属于上市公司股东的扣除非经常性损益后的净利润 4,521,816.29 3,717,979.20-3,969,136.75 5,878,414.95 经营活动产生的现金流量净额 4,768,088.45-8,203,469.87-228,258.05 34,322,547.77 季度数据与已披露定期报告数据差异说明 适用 不适用 九、九、非经常性损益项目和金额非经常性损益项目和金额 适用 不适用 单位:元 币种:人民币 非经常性损益项目 2022 年金额 附注(如适用)2021 年金额 2020 年金额 非流动资产处置损益 302,799.72 -71,209.52-127,056.60 越权审批,或无正式批准文件,或偶发性的税收返还、减免 计入当期损益的政府补助,但与公司正常经营业务密切相关,符合国家政策规定、按照一定标准定额或定量持续享受的政府补助除外 9,299,020.00 主要系专精特新小巨人资金支 持 补贴、企业上市挂牌补贴、产业扶持资金 补 贴等。236,043.05 463,020.71 计入当期损益的对非金融企业收取的资金占用费 企业取得子公司、联营企业及合营企业的投资成本小于取得投资时应享有被投资单位可辨认净资产公允价值产生的收益 非货币性资产交换损益 委托他人投资或管理资产的损益 因不可抗力因素,如遭受自然灾害而计提的各项资产减值准备 债务重组损益 企业重组费用,如安置职工的支出、整合费用等 交易价格显失公允的交易产生的超过公允价值部分的损益 同一控制下企业合并产生的子 2022 年年度报告 12/283 公司期初至合并日的当期净损益 与公司正常经营业务无关的或有事项产生的损益 除同公司正常经营业务相关的有效套期保值业务外,持有交易性金融资产、衍生金融资产、交易性金融负债、衍生金融负债产生的公允价值变动损益,以及处置交易性金融资产、衍生金融资产、交易性金融负债、衍生金融负债和其他债权投资取得的投资收益 12,826,724.75 主要系公司为提高资金使用效益,购买银行保本浮动收益型理财产品取得的投资收益。11,269,574.01 9,483,852.59 单独进行减值测试的应收款项、合同资产减值准备转回 对外委托贷款取得的损益 采用公允价值模式进行后续计量的投资性房地产公允价值变动产生的损益 根据税收、会计等法律、法规的要求对当期损益进行一次性调整对当期损益的影响 受托经营取得的托管费收入 除上述各项之外的其他营业外收入和支出-11,400.14 278,099.67 258,391.47 其他符合非经常性损益定义的损益项目 减:所得税影响额 3,112,078.79 1,174,508.62 1,012,541.62 少数股东权益影响额(税后)合计 19,305,065.54 10,537,998.59 9,065,666.55 对公司根据公开发行证券的公司信息披露解释性公告第 1 号非经常性损益定义界定的非经常性损益项目,以及把公开发行证券的公司信息披露解释性公告第 1 号非经常性损益中列举的非经常性损益项目界定为经常性损益的项目,应说明原因。适用 不适用 十、十、采用公允价值计量的项目采用公允价值计量的项目 适用 不适用 单位:元 币种:人民币 项目名称 期初余额 期末余额 当期变动 对当期利润的影响金额 交易性金融资产 418,011,036.99 400,946,942.46-17,064,094.53 12,826,724.75 合计 418,011,036.99 400,946,942.46-17,064,094.53 12,826,724.75 2022 年年度报告 13/283 十一、十一、非企业会计准则业绩指标说明非企业会计准则业绩指标说明 适用 不适用 十二、十二、因国家秘密、因国家秘密、商业商业秘密等原因的信息暂缓、豁免情况说明秘密等原因的信息暂缓、豁免情况说明 适用 不适用 公司部分信息涉及商业秘密,根据上海证券交易所科创板股票上市规则上海证券交易所科创板上市公司自律监管指引第 1 号规范运作的相关规定,公司已按照信息披露暂缓与豁免业务管理制度完成相应的审批程序。2022 年年度报告 14/283 第三节第三节 管理层讨论与分析管理层讨论与分析 一、一、经营情况经营情况讨论与分析讨论与分析 报告期内,公司继续坚守“做智能世界的数据基石”的使命,按照技术+产品双轮驱动的定位持续加大研发投入,为 AI 产业链上的各类机构提供算法模型开发训练所需的高质量专业数据集。2022 年,公司持续探索、立足以智能驾驶为代表的新兴垂直领域,为公司中长期健康发展奠定基础。同时,公司适时恢复海外市场投放力度,积极拓宽海外市场空间。2022 年,公司实现业务收入 2.63 亿元,较上年同期增长 27.32%;实现归属于母公司所有者净利润 2,945.41 万元,较上年同期降低 6.81%;扣非后归母净利润 1,014.91 万元,较上年同期降低 51.83%;经营性现金流净额3,065.89 万元,较上年同期增长 4,620.72 万元。截至报告期末,公司总资产为 8.77 亿元,归属于母公司的所有者权益为 8.30 亿元,分别较上年末增加 4.31%和 2.93%。2022 年,公司具体经营情况如下:(一一)核心业务板块经营情况核心业务板块经营情况 1.1.训练数据全球化业务训练数据全球化业务 2022 年,随着全球经济形势逐渐复苏,境外市场需求快速回升,公司境外业务收入达到 1.16亿元1,同比增长 102.04%。受益于境外企业全球化扩张以及虚拟人、多语言扩展、软硬件升级等研发及业务方向的发展,多语种多模态数据业务需求呈现快速增长趋势,公司凭借多年来在语言研究、发音词典、语音、计算机视觉以及自然语言方面的技术储备,赢得了境外客户信赖,相关订单数量显著增长。此外,为更好应对境外数据服务市场的复苏,公司也逐渐增强境外销售团队建设、增设境外本土销售人员,重启包括 Interspeech、ICASSP 等在内的海外研讨会及行业展会并深度参与,从而向全球市场展示公司先进技术实力及前瞻性产品积累,提升行业影响力;同时,利用搜索引擎、社交媒体、品牌宣传等多类渠道进行推广,提升海外市场及主要客户的认知度。2.2.智能驾驶行业数据服务业务智能驾驶行业数据服务业务 报告期内,得益于智能驾驶级别以及渗透率的不断提升,智能驾驶相关数据需求呈现出规模化增长趋势。2022 年公司凭借逐步积累起来的行业领先的技术平台以及优质的服务品质,开始获得客户认可,2022 年,公司智能驾驶业务收入 4,174.51 万元,同比增长 115.12%,客户数量超过50 家,覆盖传统车企、新势力车企、智能驾驶技术公司等。2022 年,为更好抢抓智能驾驶发展机遇,公司建立独立的智能驾驶事业部,并从研发、技术、业务、销售等多维度布局智能驾驶业务。公司于报告期内上线了第四代智能驾驶标注平台,实现了智能驾驶应用场景全覆盖,可支持包括 4D 毫米波雷达、激光雷达、鱼眼摄像头等各类传感器的 1 注 1:含部分智能驾驶业务板块收入。2022 年年度报告 15/283 新型数据处理需求。此外,公司通过整合当前主流的神经网络算法架构和海量的自有数据集,进行大量的模型训练和调优,提升了 2D 视觉及 3D 点云连续帧标注中的插值、预测、自动贴合、地面检测等算法效果,改善了标注效率和准确率。报告期内,随着国家对于数据安全重视程度的不断提升,数据安全及合规能力成为智能驾驶数据服务领域新的竞争壁垒。2022 年 8 月末,自然资源部发布关于促进智能网联汽车发展维护测绘地理信息安全的通知(以下简称通知),通知规定了从事测绘相关工作的内资企业需获得相应资质方能准入(外商投资企业则不能申请测绘资质),这意味着未取得测绘资质的企业将不得从事智能驾驶舱外数据的处理(包括但不限于采集、标注等)工作,进一步拉升了行业准入门槛。公司历来重视数据安全能力建设,并在相关资质方面加强布局,于 2022 年 6 月取得北京市规划和自然资源委员会行政许可,获得乙级测绘资质,为公司合规开展汽车数据采集、标注业务,建立完整数据解决方案、生产标注化数据集产品,奠定了坚实的基础。(二二)核心技术能力建设情况核心技术能力建设情况 2022 年,按照公司技术+产品双轮驱动的定位,公司持续加大研发投入,不断提升技术和平台工具先进性、加大标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固公司核心竞争力。报告期内,公司研发费用共计 9,427.34 万元,占当期营业收入的 35.86%,研发投入同比增长 55.77%,在研发投入金额和研发投入占收入比两个维度均创公司历史新高。截至报告期末,公司研发人员数量增加至 82 人。1.1.算法及平台能力算法及平台能力 报告期内,公司持续加大基础研发投入,进一步提升人工智能基础算法、一体化数据生产平台、前沿技术研发等领域能力,同时重点投入智能驾驶数据处理综合性平台的相关算法研发,并形成了一些代表性成果:1.1 算法 新增算法模型框架 1 个、算法模型数量增至 200 余个、语音识别算法支持语种数增至 58 个;进一步提升多引擎决策策略对数据业务的效率提升作用,算法自动识别跳过人工处理能力实现 30多个语种的覆盖,跳过率平均提升 20%;完成多通道对齐算法迭代升级,在特定项目中对齐准确率提升至 99.7%。在智能驾驶算法研发方向,全面优化 2D 目标检测算法,准确率提升超过 70%,助力数据标注速度显著提升;完成 3D 点云目标检测算法的研发和平台部署;新增了包括 3D 点云分割算法、车道线检测算法、可行驶区域检测算法、交通灯检测算法等多种算法能力。1.2 平台 全面提升一体化数据服务平台标注能力与自动化标注覆盖率,进一步拓展数据应用领域覆盖:(1)全面升级智能驾驶标注子平台,新增 4D 标注工具,优化点云语义分割、2D+3D 融合标注、点云 BEV(鸟瞰图)、Freespace 场景等标注交互体验超过 50 个功能点;新增 2D 多目视频追2022 年年度报告 16/283 踪联合标注场景支持,全面优化 2D 标注、像素级语义分割、2D 连续帧标注体验超过 80 个功能点,大幅提升智能驾驶相关数据标注效率;(2)升级一体化数据处理平台与算法训练平台无缝对接,实现涵盖语音、文本、图像、点云等各类数据类型的自动预标注、实时交互式辅助标注与自动质检,大幅提升平台自动化标注覆盖率与标注结果准确率;(3)升级智能语音标注子平台,新增调型标注、多音字自动提取与标注、元音恢复标注等语音合成相关十余类标注场景支持共计超过 30 个功能点,支持基频提取,支持中文与日语韵律预测,支持中文、英文、日语、韩语、法语、意大利语、德语、葡萄牙语、俄语、丹麦语等 23 个语种的词性预测算法接入,持续提升对公司多语种数据业务的自动化支撑;(4)在多语种语料设计领域,更新优化多语种语料设计平台,持续提升对复杂语音识别语料设计及语音合成语料设计等需求的支撑作用、确保满足甚至超出客户预期。通过上述投入,截至报告期末,公司已经取得 29 项发明专利、1 项实用新型专利授权及 1 项外观设计专利授权,163 项计算机软件著作权。同时,公司实质性地提升了自身的算法能力、工程化数据研发及生产能力,形成了更为合理、高效的人机协同智能化解决方案,持续降低训练数据开发成本,以 AI 赋能训练数据开发,以训练数据赋能 AI 产业发展。2.2.标准化数据集产品标准化数据集产品 标准化数据集产品,是公司区别于众多竞争对手以定制化服务为主的特有商业模式,也是公司核心竞争力之一,标准化产品不仅可以更好服务于客户需求,同时由于产品本身的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,因此可更好帮助公司实现未来可持续性销售、以及毛利空间提升。为更好缩短 AI 产品研发周期以及降低研发成本,购入标准化数据集产品并完成模型训练的客户需求持续存在。为更好适应新的行业发展趋势,公司 2022 年在产品研发方面的投入达到4,434.28 万元、同比增长 46.63%,用于开发覆盖智能语音、计算机视觉以及自然语言等领域的相关数据集产品。截止报告期末,公司新增研发超 400 个训练数据集产品,自有知识产权的训练数据产品储备超过 1,300 个,尤其在多语种及多音色语音数据集和发音词典、动作捕捉等多模态数据集、以及多语种 OCR 和手写体数据集等方面积累了更丰富的标准化产品资源。公司近两年标准化数据集产品储备情况如下:业务类型业务类型 应用领域应用领域 储备量(截止储备量(截止2 202022 2 年末)年末)储备量(截止储备量(截止2 2021021 年末)年末)1 1、智能语音、智能语音 个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智慧金融等 927 个 680 个 2 2、计算机视觉、计算机视觉 智能驾驶、移动社交、虚拟人、智慧金融、智慧交通、智慧城市、OCR 识别等 125 个 108 个 2022 年年度报告 17/283 3 3、自然语言、自然语言 机器翻译、智能问答、信息提取、情感分析等 282 个 144 个 合合 计计 1 1,334,334 个个 9 93232 个个 随着以上产品的研发完成并投放市场,2022 年标准化产品收入实现提升,达到 1.11 亿元,同比增长 14.19%,公司在标准化数据集产品的投入获得市场认可,成效显著。截止报告期末,公司已向下游客户提供了累计约 6,000 次/个定制或标准化训练数据集,可覆盖生活交流、客服、家居、行车、办公、普通环境、噪声等多种特定场景中的语言现象和视觉呈现,构建成独具特色的训练数据资源及服务能力集群,并已应用于个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧金融、智慧交通、智慧城市、机器翻译、智能问答、信息提取、情感分析、OCR 识别等 19 类创新应用领域,赋能人工智能技术与实体经济的深度融合。3.3.语音语言学能力语音语言学能力 随着全球化扩张成为头部企业收入持续增长的重要引擎,多语种数据的作用和价值更加凸显。为更好满足客户多语种拓展需求,公司持续保持语音语言学研究力度,在语音语言学基础研究方面,公司不断丰富合作语言学家团队资源,成员遍布世界各地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备。此外,公司建立了成熟的发音词典构建流程,截至报告期末,已积累下超过 110 个语种/方言的发音词典,覆盖希伯来语、乌尔都语、缅甸语、阿姆哈拉语、普什图语、阿尔巴尼亚语、格鲁吉亚语等小语种,累计词条数超过 1,000 万条,可支撑构建高质量的智能语音、多语种 OCR 及手写体训练数据。截至报告期末,公司已经拥有近 200 个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见外语种,还包括东南亚、一带一路等国家地区的罕见小语种,尤其在亚洲小语种、中东欧小语种的服务上具备竞争优势,同时也是公司的主要壁垒及核心技术之一。报告期内,公司基于积累的强大语音语言学设计能力,为全球某知名科技企业提供了专业的闽南语语音数据集,将原本没有特定文字书写系统以及对应音标的闽南语,直接透过语音对语音翻译方式转换成另一种语言,辅助客户完成了闽南语等无文字无音标体系小语种语音技术突破。(三三)其他综合能力建设情况其他综合能力建设情况 1.1.数据安全及合规数据安全及合规 2022 年是我国数据安全法、个人信息保护法生效后的第一个完整自然年,两项法律的配套立法和执法要求逐步落地,数据安全监管环境进一步趋严。年末,中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见正式发布,明确了包括“建立保障权益、合规使用的数据产权制度”、“建立安全可控、弹性包容的数据要素治理制度”等在内的数据基础制度建设方向,对企业的数据安全水准和能力提出了更高要求。2022 年年度报告 18/283 公司一直以来非常重视数据安全管理以及相关能力的提升。报告期内,公司在数据安全方面实现了多项工作成果。资质方面,公司取得北京市规划和自然资源委员会行政许可,获得乙级测绘资质,为公司智能驾驶采集业务拓展奠定基础;开展信息系统等级保护测评工作,获得等保三级备案证明;继续持有 ISO27001 信息安全管理体系认证、ISO27701 隐私信息管理体系认证。行业参与方面,公司加入成为中国信通院数据安全推进计划成员单位,董事兼副总经理李科入选该计划数安智库专家,发表AI 训练数据安全管理实践等文章,为人工智能领域数据安全管理建言献策,并因其贡献荣获数安智库 2022 年度优秀专家称号;公司根据实践经验总结、撰写的人工智能基础数据业务之个人信息收集活动的合规审计案例获选中国信通院、中国内审协会“全国首届数字化审计论坛”评选的“个人信息保护合规审计先锋实践案例”,数据安全管理工作获得了行业认可。公司也一直坚持统筹安全与发展并重的原则,在守住安全合规底线的前提下积极拓展包括数据跨境流通在内的数据要素业务。2022 年 9 月,我国数据出境安全评估