温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
文本
挖掘
优质
直播
内容
特征
研究
马林烨
第 卷第 期年月北京邮电大学学报(社会科学版)().,.收稿日期:基金项目:教育部首批新文科研究与改革实践项目()作者简介:马林烨(),女,河北衡水人,博士在读:基于文本挖掘的优质带货直播的内容特征研究马林烨,闫强,张笑妍,曹和锐(.北京邮电大学 经济管理学院,北京;.北京邮电大学 现代邮政学院,北京;.中国移动政企客户分公司,北京)摘 要:为了探究优质带货直播的内容特征,对直播视频生成的字幕文本进行文本挖掘。首先,利用 模型提取主题,将优质带货直播的内容特征分为交互性、个性化、可视性、专业性、可靠性和娱乐性,并重新定义。然后,选定合适的机器学习算法预测主题概率。最后,利用统计分析给出优质带货直播内容特征的一般分布规律。研究发现:直播购物内容具有实用、娱乐和社交价值;体验品的介绍时长高于搜索品,体验品在专业性、娱乐性上高于搜索品,可视化上低于搜索品并进一步发现服装和化妆品确实有类似特征。另外,相较于成熟的直播间,新直播间的商品介绍时长缩短,响应性提高。结合前人研究成果得出合理解释,有助于指导新主播入门和优化平台直播流程。关键词:直播购物;文本挖掘;内容特征;模型中图分类号:.;.文献标识码:文章编号:()一、引 言直播购物是一种基于电子社交商务的新型购物渠道,它利用直播的特点培养了一种交互式、信息化和沉浸式的在线购物体验。通过提供主播和观众之间前所未有的实时互动,直播购物有效地缩短了感知距离,解决了信息不透明的问题,彻底改变了传统的电子商务商业模式,特别是实现了主播和观众的双向实时互动。年“双十一”期间,直播电商的商品交易总额达到 .亿元,比“双十一”期间的 亿元增长了.。由于直播购物带来的巨大收益,大量网络销售商和在线供应商都在尝试直播购物。直播购物成为全球企业的主流营销渠道,在学术界也广受关注。目前,关于直播购物的研究主要关注观众的动机、心理机制以及主播的信息源特征如何影响消费者的购买意愿和参与行为。研究方法主要基于问卷调查的实证研究,较少关注真实的直播内容(如字幕)所传达的信息,而且缺少评价直播内容质量的标准。一般来说,长期占据销售榜前十名的直播间为优质带货直播间,其内容特征可以作为行业标准。鉴于此,笔者试图探究优质带货直播的内容特征及其分布规律。二、相关研究作为一种新型的电子商务模式,直播购物近年来受到广泛关注。直播内容作为直播主要的组成部分具有重要的信息价值。目前,关于直播内容的研究中的关键特征变量主要基于文献研究获得,数据主要来自问卷,较少关注字幕这一非结构化数据中所传达的内容信息。目前,关于直播内容的研究主要关注直播的交互性。等从个性化、响应性、娱乐性、互动性和控制感五个方面研究实时互动对社交商务参与的影响。等利用交互性的响应性和个性化分别代表交互的强度和丰富程度来研究直播购物互动的动态影响。范小军等将同步性、响应性、去中心性以及互动频率作为移动视频直播互动性的四个维度。除了交互性,与传统电子商务相比,直播购物还有一些其他的优势特征。等从可信度、有用性和生动性三方面研究直播信息质量。等认为,直播购物可以使消费者直观地看到商品,且主播关于商品的讲解也更专业。这些研究提出了很多关于直播内容特征的变量,但是哪些是优质带货直播的核心变量并不明确,而且这些变量的定义大部分借鉴于其他背景,有可能并不贴合直播购物这一情境。为了弥补这一不足,笔者对字幕文本进行文本挖掘,拟探究优质带货直播具有哪些内容特征,并给出这些特征变量的规范定义,然后利用统计分析得出优质直播内容特征分布的一般规律。三、研究思路与技术路线首先,录制直播视频获得原始数据,生成并导出字幕文本。其次,对数据进行预处理,利用 模型提取主题。最后,通过训练机器学习算法预测主题概率。研究思路和技术路线如图 所示。图 技术路线图第一,使用录屏软件录制抖音优质带货直播的视频,生成字幕,校准后导出带有时间戳的字幕文本。第二,对数据进行预处理,包括清洗、中文分词和去停用词,最后生成高频词的词云图。第三,实用 模型进行主题提取。目前,主要的主题分析模型有、和。主题提取可以分为:确定主题数量;利用 模型提取主题;结合相关文献,将提取出的主题整合为与直播内容特征相关的关键变量。第四,通过训练机器学习算法预测主题概率:取样,包括取样作为训练集,人工标注和重新取样(因为标注数据集的分类结果不均衡);选择在预测集上表现最好的 作为分类器;利用训练好的模型预测主题概率并进行结果分析。四、实验过程与结果分析(一)数据收集笔者在抖音上选取了两个长期占据销售榜前十名的直播商,于 年 月录制了 件商品的直播视频,视频总时长.小时,单个视频时长 秒 秒,商品价格为.元 元。其中,主播一直播间的商品 件,主播二直播间的商品 件,主播二衍生的新直播间的商品 件。这 件商品按类别分为搜索品 件和体验品 件。具体来说有服装 件、化妆品 件、配饰 件、日用品 件、食品 件、数码电子 件。若采用讯飞开放平台、腾讯云等普通的音频转文字工具,需要先将视频转为音频,然后再转为文本,过程复杂、耗时、校准麻烦。而抖音专属的视频剪辑软件剪映可以直接利用视频生成带有时间戳的字幕,准确率高,而且字幕与画面同步方便校准。因此,笔者选用剪映生成并导出字幕文本,最终共获得 条字幕。(二)数据预处理数据预处理主要包括数据清洗、文本分词、去停用词。北京邮电大学学报(社会科学版)年第 期.数据清洗之前进行主题分析的文本主要是在线评论、新闻稿等现成的文段。由于字幕来自主播的推销词,存在大量的语气词、缩略词、语序混乱、频繁重复等问题,容易导致挖掘结果偏差,在数据正式处理前需首先进行数据清洗,去口语化。.文本分词由于 模型是基于词向量进行计算,正式分析前需要对数据进行文本分词,即将句子中的汉字按照序列切成一个个单独的中文词语。使用 中的 程序包进行中文文本分词。分词有三种不同的分词模式:精确模式是最常用的分词方法;全模式会将句子中所有可能的词都列举出来;搜索引擎模式则适用于搜索引擎使用。笔者选用精准模式对字幕文本进行分词。由于直播购物特定的背景,主播介绍商品时会出现品牌、别名等一些专有名词,笔者自定义了分词词典,词典包含清莹露、自留款等 个名词。.去停用词分词后发现很多对文本分析结果解读没有帮助的高频词,因此需要去停用词。目前,常见的通用停用词词典包括哈工大停用词表、百度停用词表、四川大学人工智能实验室停用词库。笔者采用哈工大停用词词典,并在此基础上将那些对结果解读帮助较小的无用高频词加入停用词词典,构建了自定义停用词词典。自定义停用词词典含有 个词。数据预处理后,字幕文本变成易于解读的词组,如表 所示。词频排在前 位的词组的词云图如图 所示,以词组字体大小表示词组的频率,词组字体越大,出现频率越高。由图 可见:直播中主播与观众频繁的互动,如“朋友们”“大家”“看一下”“你们”等;有大量与商品相关的信息,如“价格”“好看”“滋润款”;而且主播在积极组织观众参与活动,如“关注”“灯牌”“刷起来”等。表 数据预处理前后效果对比图序号数据预处理前字幕文本数据预处理后词向量表示形式我们今天有长有短有两个皮裤 有长有短,皮裤它 毫升跟我一瓶水容量差不多了啊 毫升,一瓶水,容量第一个是能感觉到它的质感很厚 质感,厚图 前 位的词频词云图(三)主题提取由于 模型既可以不经过训练直接进行文档的主题提取,也可以利用已经训练好的 模型对一些与训练集语料库相关的文档进行主题预测,选用 模型进行主题提取,并使用 中 库提供的 模型实现。.主题数确定主题数是 模型中最重要的参数之一,主题数的设置直接关系到主题提取的效果和结果的解读。笔者使用一致性这一 自带的评价方法进行 模型最优主题数的选择。一致性代表 提取的马林烨等:基于文本挖掘的优质带货直播的内容特征研究主题之间词语语义的关联程度。当前,常用的计算方法有、等,本研究采用。不同主题数的模型一致性得分结果如图 所示。由图 可知,当主题数值为 时,一致性得分最高,这意味着此时抽取到的主题分布最可靠,因此将模型的主题数定为。图 不同主题数的模型一致性得分.主题提取进行主题提取,得到 个主题的主要特征值模型,表示为特征词的加权求和,具体如表 所示。参考关于直播内容特征的相关研究,将 个主题概括为 个与直播内容特征相关的关键变量:响应性、个性化、可视化、专业性、可靠性和娱乐性,对应关系如表 所示。表 个主题的主要特征值(按重要性依次排列)序号主题模型.“你”.“朋友们”.“漂亮”.“买了”.“她”.“哪”.“买一件”.“块钱”.“上班”.“新品”.“你们”.“送”.“加”.“直播间”.“朋友”.“发货”.“贵”.“到手价”.“便宜”.“没有问题”.“大家”.“拍”.“号链接”.“”.“准备好”.“抱歉”.“上架”.“抓紧”.“尺寸”.“搭配”.“看”.“你”.“上身”.“左上角”.“面料”.“毛衣”.“冬天”.“送给”.“腰带”.“福袋”.“穿”.“喜欢”.“过了”.“羽绒服”.“尺码”.“外套”.“配”.“内里”.“客服”.“秋冬”.“看一下”.“想要”.“大家”.“试一下”.“蓝色”.“倒计时”.“加绒”.“单”.“块钱”.“帮”.“颜色”.“主播”.“绿色”.“粉色”.“看看”.“高”.“加了”.“观众”.“马甲”.“温柔”.“价格”.“推荐”.“”.“过年”.“块钱”.“背”.“发”.“黄色”.“号链接”.“年轻”.“上”.“准备”.“划算”.“块钱”.“卡码”.“拍大一码”.“看下”.“建议”.“可爱”.“赠品”.“好看”.“大衣”.“搭”.“身上”.“裤子”.“加上”.“设计”.“产品”.“问题”.“块钱”.“没有了”.“运费险”.“赠送”.“打”.“小个子”.“开”.“快”.“灰色”.“包”.“长”.“关注”.“点”.“灯牌”.“看到没有”.“样子”.“点亮”.“绵羊毛”.“记得”.“看一眼”.“保暖”.“黑色”.“版型”.“码”.“”.“白色”.“点点”.“驼色”.“.米”.“送人”.“品牌”北京邮电大学学报(社会科学版)年第 期续 表序号主题模型.“适合”.“选”.“效果”.“内搭”.“材质”.“暖”.“能不能”.“块钱”.“做到”.“收到”.“衣服”.“号链接”.“专柜”.“钱”.“看到”.“福利”.“男生”.“女生”.“试”.“套”.“衣长”.“没了”.“链接”.“天无理由退换”.“全身”.“质感”.“扣一下”.“很多人”.“找”.“只”.“穿”.“码”.“码”.“码”.“码”.“码”.“舒服”.“扣”.“单”.“百搭”表 抽取主题与直播内容特征相关变量的对应关系直播内容特征主题代码关键词响应性,拍、上、准备、准备好个性化,你、你们、朋友们、朋友、适合可视化,看、看一下、穿、上身专业性,颜色、价格、好看、版型、码可靠性,运费险、赠送、天无理由退换娱乐性关注、点、灯牌、点亮参考之前的文献,结合提取的主题模型,笔者对这 个内容特征进行了定义,如表 所示。研究发现,响应性、个性化、可视化、专业性、可靠性和娱乐性会影响直播效果。根据社会传染理论,高响应性制造的紧张氛围会引发从众效应,促使观众冲动消费。由于信息过载,直播商务注重个性化,产生与观众需求相匹配的个性化推荐,会降低观众的信息处理成本,提高决策的效率和质量。观众发现主播的推荐与自己的需求相匹配,会产生社会认同,缩短心理距离。可视化会提供一种身临其境之感,增强社会临场感,缩短心理距离。直播间的商品链接仅在直播过程中有效,且关于商品的评论、口碑信息较少,会增加消费者的感知风险,但是主播专业的讲解和对商品品质的承诺会提高消费者信任,减少感知风险。基于用户参与理论,用户参与活动会完全沉浸其中,并激发心流体验,因此,主播组织的线上活动会激发观众的联系感和亲近感,诱发其归属感和温暖感,使其获得愉悦感。表 关于内容特征的规范定义内容特征参考文献定义示例响应性 等,等对观众的要求作出快速而有效的反应已上架、补库存、加了、倒计时过了等个性化 等根据观众的需求和偏好,为观众推荐特定的产品身高 体重 适合 码、干皮拍滋润款等可视化 等提醒观众看商品的细节、试用效果