当前位置: 首页 > 其他范文 > 其他范文

使用LDA和BERT嵌入的单语和多语言主题分析

作者:whh59800 | 发布时间:2023-10-13 15:07:28 收藏本文 下载本文

使用LDA和BERT嵌入的单语和多语言主题分析

分析研究课题,为科学发展指明了方向提供了潜在的见解。特别是,分析多语种研究课题可以帮助研究人员掌握全球主题的演变,揭示不同语言的科学出版物之间的主题相似性。迄今为止,关于主题分析的多数研究都是以英文出版物为基础的,并严重依赖基于引文的主题演化分析。

然而,由于英文出版物引用非英文来源可能具有挑战性,而且由于许多语文不提供摘要的英文翻译,基于引文的方法不适合分析多语种研究专题关系。由于多语言句嵌入可以在多语种翻译任务中有效地保留单词语义,基于多语言句嵌入的主题模型可能会生成多语言分析中出版物的主题-单词分布。

本文位于图书馆和信息科学领域,我们使用来自变压器(BERT)的多语种预训练的双向编码器表示

嵌入和延迟Dirichlet 分配(LDA)主题模型,以分析单语和多语主题相似性设置中的主题演变。对于每个主题,我们将其LDA概率值乘以BERT嵌入的平均张量相似性,以探索该主题在科学出版物中的演变。由于我们提出的方法不依赖于机器翻译或作者的主观翻译,它避免了机器错误或作者主观选择的英语关键字造成的混淆和误会。结果表明,该方法非常适合分析单语与科学多语主题相似性关系的科学演化。

1. 科学领域的介绍主题分析至关重要,因为它有助于识别新兴主题、热点和知识转移(李、李、关、马和崔,2015年)。此外,主题演变分析可以发出学科发展的范式转变信号,并帮助找到基于主题的社区(Ding,2011年)。对于个人来说,主题分析发现有助于优化研究主题选择,把握研究趋势,并寻求科学合作者(陈、王、唐,和浩,2019年)。主题分析与科学计量学相结合,也进行了调整,为各种研究目的提供了有效的研究策略,包括性别差异(德达里拉德、维拉罗亚和巴里奥斯,2014年)、机构或社区评估(Wang,程,和路,2014年),研究主题的收敛和分歧(Lamirel,2012年),鉴定专家(内沙蒂,法拉赫内贾德,&贝吉,2017年),研究跨学科主题(徐,郭,岳,鲁,方,2016年),并检测研究事件(Chen等人,2019年)。通过传统科学地图将科学主题可视化到一系列时间片中(张、刘、刘等人,2017年),确定了主题演化、融合、死亡和新颖性之间的密切关联性。最近的观点甚至显示,主题分析对资助机构来说非常有意义,因为历史上很少关注研究项目的发展(Light & Adams,2016年),因为我们很少关注资助研究主题的后续变化。对特定专题进行系统研究已成为一种全面的方法,为研究评估提供了潜力。

与以往大多数基于英文出版物的主题分析研究不同,据我们所知,本文是首次分析不同语文出版物的多语种主题相似性关系。

遵循分布假设,具有类似含义的单词可能会出现在类似的上下文中(Vulic& Moens,2015)。因此,嵌入空间可以表示语义空间。特别是,一些研究表明,无需依赖并行数据即可学习多语言对齐(张、刘、刘等人,2017年;康诺,兰普勒,兰扎托,德诺耶,&Jégou,2018).我们使用LDA 生成主题。对于生成的主题,我们将主题中每个单词的LDA 概率值乘以平均张量相似性,其中包括使用单语或多语言BERT 嵌入的相应句段中的30 个句子中的该单词。通过计算最终的相似性,在图书馆和信息科学研究的语境中分析了中英文出版物中基于时间序列的专题演变

(LIS)。此外,我们使用和弦图来可视化多语言主题相似性关系。

本文的主要贡献是提出一种分析单语(中英文)主题演变的方法,以及不同语言出版物的多语种主题相似性关系,避免因非英语出版物误译英语而造成混淆和误用。对于单语出版物,我们乘以LDA 概率值和BERT 嵌入上一年及后主题的平均张量相似性,以探索它们在科学出版物中的演变。对于多语言出版物,我们计算了同年两种不同语言的发布数据集与多语言上下文中的主题关系的相似性。对于BERT 嵌入,我们使用了以下Google 预训练的BERT 模型:"bert-base -中国","bert-base -uncased"和bert-base - 多语种-

"(德夫林,张,李,和图塔诺娃,2018年)。建议的句子多语种嵌入可以有效地保留多语种词语义。结果表明,该方法能够分析多语种的相似性关系,并比较不同语言的科研前沿。

2. 相关工作有许多方法——从宏观层面到详细分析——从文学或其他媒体类型的文本中提取主题(Hu等人,2019年)。最近流行的一个方法是在几年的有限出版物中通过适当的主题建模来提取学术主题。即使是单语文本中的时间片主题分析也可以照亮主题过渡模式(宋、Heo和Kim,2014)。然而,由于多语种障碍,这种办法很少适用于多语种出版物,导致国家和国际之间缺乏专题分析。

主题分析可以通过促进对所关注主题的整个发展的理解来使研究人员受益。这概述了他们的研究领域的演变,特别是当与大多数被引用的个人或社区和代表性期刊相结合时。书目计量学和计算语义方法(潜伏语义分析、主题模型和共发生分析)已证明可用于确定研究的主要主题和趋势(宋、金和李,2017年)。文摘、主题类别、主要期刊、国际合作和时间关键字焦点等书目信息是揭示主题分布的核心语料库(Ji、Pang&Zhao,2014 年;纳塔莱,菲奥雷,&霍夫赫尔,2012年)。这些经典的科学期刊文章和论文可以与在线文本和专利文件一起用于提取主题词(宋、叶、林、陈,2017年;齐,朱, Zhai,& Ding,2018).米兰达和坎波斯

(2018)强调了当前主题和当前领域正在进行的主题的重要性,以做出决策,主题分析可以确定跨学科领域(张、刘、刘等人,2017年)。

只有少数研究在主题分析中采用了诸如BERT和ELMO等语义嵌入。最近的一项研究使用BERT生成会话嵌入,作为基于神经网络的主题分类的输入(Zhou等人,2019年)。

对于多语言任务,BERT 的新版本包括一个模型,同时对104 种语言进行预训练,对于零镜头多语种传输具有令人印象深刻的性能(Wu & Dredze,2019)。LDA 是执行主题分析的热门主题模型之一,它显示了多语言文档相似性计算的卓越性能(魏、燕屯、兰江、郑涛和洪斌,2017 年;吴,张,齐,崔,和徐,2017年)。它广泛应用于发现主题和学术文献的进化分析等领域(Blei和Laferty,2007年;格里菲斯和斯蒂弗斯,2004年)。先前的研究首先进行了机器翻译,然后使用LDA(Blei等人,2003年)来生成主题。例如,张、黄和徐(2018 年))使用多语言词空间映射来帮助比较不同语言的单词,然后使用LDA 将单词分组到主题中。他们提出了两种方法——使用LDA和赛后LDA翻译公司——来实现他们的目标。显然,将专题分析重点放在单语专题提取语库上,将导致基于大量多语种出版物的调查不足。据我们了解,以前没有通过将LDA与BERT相结合来对多语种主题任务进行研究。

3. 方法

3.1. 研究概述图1显示了探索单语和多语主题相似性研究课题演变的研究设计。首先,我们收集了中国国家知识基础设施(CNKI;www.cnki.net)的中文数据。为了发现科学前沿,我们只根据《中国核心期刊指南》使用中国核心期刊,这是一个涵盖2009-2018年图书馆和信息科学领域的数字图书馆。信息和图书馆科学的英文摘要是从科学网收集的。表1 显示收集的记录数。预处理后,我们使用每种语言的LDA 生成主题分发。然后,我们使用中文、英文和多语种预训练的BERT 嵌入来计算单语数据集中每个主题单词的上一年与后年度的平均张量相似性,同时我们还计算了多语言数据集中同一年每个主题单词的张量相似性。在最终相似性分数方面,我们考虑LDA概率值和BERT嵌入的平均张量相似性。此外,如果两个相关主题之间的相似点分数高于阈值,我们假设存在关系;如果两个相关主题之间的相似点高于阈值,则假设存在关系。否则,我们删除关系。根据单语主题演变中每个时期的职位数和以前关系,我们将关键主题定义为前五个主题。在结果部分,我们使用Sankey 图来展示单语言主题演化和和弦图,以显示多语言主题相似性关系。最后,我们讨论了中英文出版物的十大多语种主题相似性,并预测了目标语言中的关键主题。

3.2. 数据预处理在收集每种语言的标题、摘要和关键字后,对句子单元进行了清理和筛选过程,然后由LDA 生成主题。对于中国数据,我们需要从执行分段开始:

我们收集了中文文章的所有关键字,作为一个新的字典进行分段。用于BERT 嵌入的语料库不需要预处理。

3.3. LDA 参数对于LDA 参数,我们选择了20 个群集(主题)和每个群集(主题)前五个主题词。由于统计分析,我们选择了前五个主题词。如表2 所示,我们计算了平均LDA 概率。

如表2 所示,最高概率值是第五高主题单词的3.5 倍。此外,随着排名的降低,概率值变得大致稳定。使用此结果,我们为LDA 参数选择了前五个主题词。

关于主题数(K),我们测试了各种K 值,包括5、10、15、20 和25。在这些K 值中,当K 值为20 时,结果最清晰。较小的K 值(如5 和10)使主题的特征变得模糊和不完整,而最大的K 值(25)使大多数主题共享相同的主题单词。附录1 显示了不同主题的主题单词。

3.4. BERT 嵌入对于单语例,我们使用的中文嵌入是预训练的bert-base-中文,具有12 层、768 隐藏、12 个头、110 M 参数,而使用的英文嵌入是bert-base,具有24 层、1024-隐藏、16-

头和340 M 参数。两者都可从谷歌BERT 模型网站获得。如图2 所示,根据句子中的单词和单词顺序位置,同一单词可能具有不同的张量。因此,我们计算了包含目标主题单词的30 个句子的平均张量。这些句子来自一个包含相应语言和年的标题、摘要和关键字的语料库。对于多语言情况,我们在每个单词中使用了100 个值进行相似性计算。张量相似性的绝对值作为最终相似性。图2 显示了Google(Devlin 等人,2018 年)提出的BERT 嵌入算法嵌入嵌入模型包括三种类型:令牌嵌入、段嵌入和位置嵌入。对于多语言,我们使用预先训练的谷歌模型称为bert-base-多语种-无cased,它经过104种语言、12层、768层隐藏、12个头和110M参数的训练。图2 显示了输入数据格式。

3.5. 相似性计算对于单语相似性计算,我们考虑了LDA概率值和BERT嵌入平均张量相似度。LDA 概率值显示与主题相关的主题字权重。

例如,2009-2013 年中文出版物的主题0 为{0,0.093*}

(策略)= 0.058* |

(政策)|

0.036* |

(信息检索)。.].对于每年的主题,我们需要计算上一年度和年后主题相似性值,公式(I)显示:

4. 结果在这里,我们用单语(中文和英文分别)和多语种主题相似性(中英文)案例来描述主题评价的结果。首先,我们使用Sankey图作为中英文这些演化的可视化工具,展示研究课题的顺序演变。然后,我们讨论多语言相似性关系,使用和弦图来可视化多语言主题关系。此外,我们预测目标语言中的关键主题。

4.1. 单语案例4.1.1中的主题演变。英文主题演变图5显示了2009-2018年LIS语境中的主题演变。虽然2009-2013 年数据集中有许多主题与主题14 13 相关,但只有一个年度后关系(2013 年)。本主题是关于社交媒体政治数据分析的。

主题14 14是图书馆信息科学的传统领域,继承了往年的许多主题,主题词包括"图书馆"、"学术"和"大学"。主题14 12 关注健康信息分析。2015年,主题15 18,15 2,和15 11有更多的前和后关系;主题15 2 和15 11 是传统主题,而主题15 18 是数据隐私和安全的新组合。主题15 0,涉及引文的影响,有更多的后关系比以前的关系。

主题15 9,这是关于生物信息学,开始流行后一年。就2016年而言,主题16 3和16 4是可扩展主题(比之前更多的后关系)。主题16 3 的主题词是技术、引用和政府。

主题16 4 是关于微博(中国社交媒体)的挖掘,也与主题15 9 (健康)有关。2017年,开源数据分析很流行,主题17 5和17 8是关于社交媒体分析的,主题17 14涉及开放获取公共服务分析。2018 年的四个主题有先验关系:社交媒体挖掘、智能系统、引文分析和图书馆学。此外,我们还可以看到英语数据集中的主题词"信息"和"学生"的演变过程:

14 5 (信息,研究,学生)→ 15 2 (图书馆,学生,信息) →16 4 (信息,微博,学生) →

17 19 (学生,信息,识字)→(图书馆,信息,学生)

这一演变过程是关于为学生获取信息来源,并基于主题词"图书馆",

"识字"和"研究"。2016年"微博"这一主题的出现似乎表明社交媒体参与学术成果的传播。表5 显示了上述主题中的主题单词。

4.1.2. 中国出版物的主题演变在中国数据集中,有各种主题和快速演变更新。因此,我们使用所有最终相似性的平均值作为阈值,而不是将此值翻倍。主题14 19,关于中美图书馆学的比较研究,有最多的后关系,其次是主题14 5,其中包括大学,学科和网络。2015年(可视化,主题15 11),(数字图书馆,主题15 19),࣯(国际形势,主题15 3)

变得流行。主题16 15,即关于贫困地区公共文化服务体系的建设,在2016年不容忽视,而对高校智囊团研究经费的分析今年也非常重要。2017年,区域差异图书馆相关性分析开始流行。表6 全面描述了这些主题。

在图6中,我们可以看到主题词是如何在中文数据集中演变的。例如,""

(大学)和"(学科)"如下:

14 5 (大学,学科,网络)→15 11 (学科,理论,可视化) →16 16

(机构、制度、文献)16 13(ᓃ智囊团、大学、资助)→17 4(期刊、作者、学科)→18 11(中心、科学、作者)

在这里,"制度"和"中心"与汉语中的"大学"有很高的语义关联。主题词的演变包括网络、理论、可视化、系统、文学、智囊团、资金和期刊等术语。

这一课题的演变过程是关于对科研机构评价的研究。2014年,对科研机构评价的研究似乎侧重于学科绩效和机构合作网络。2015年,可视化工具应用于机构评估。2016年,高校的智囊团职能开始引起人们的关注。2017年,研究的重点似乎是学科、人才和学术出版物的发展;

关于这一主题的研究一直持续到2018年。然而,2018年的研究似乎更侧重于研究中心,而不是机构和大学。这可能是由于从大学角度对组织进行评估到学术平台或研究中心视角的改变。

4.2. 多语种主题相似性关系4.2.1.多语种主题嵌入表7 显示了每个期间多语种主题词的十大相似之处;结果表明,中英文专题数据自动收敛。此外,还有高度相关的专题;例如,2016年中文主题"(期刊)"中有关英语主题最高的是"文章"和"出版"。因此,使用此嵌入实现多语言主题相似性是合理的。

4.2.2. 通过相似性显示的多语言主题关系表8显示了中英文主题之间的十大相似性分数。就多语种研究课题的演变而言,我们看到在同一时期内高度相关的专题的扩展和减少。

在2009-2013年,有两个英语主题具有很高的相似性,但有七个这样的主题在中文中。2014年,相应的数字分别是5个和4个;2015年为2个和9个,2016年是5个和6个。2017年和2018年显示数量相等,即5年。除了2014年略有下降外,中文出版物的专题与英文文章相比有明显的扩展趋势,这表明中文文章的研究主题比相应的英文文章更广。

从跨年主题演变的角度看,语言研究课题在讨论时表现出空间知识流。我们从表8中可以看到,"用户"首次出现于2013年,而"汉语主题词"与"用户"在2014年出现,2018年经常讨论,这意味着2009-2013年英语文章的流行主题在2014年扩散到中文文章中,从而表现出一个国际性国家研究课题的滞后性,在社交媒体和创新主题中也可以看到。这些显然是从国外流向中国的通俗知识。

相比之下,诸如" 贫困地区"和"课程"等主题在汉语中只是作为热门话题存在。

4.2.3. 图7对不同语言关键主题的预测显示了多语种研究主题的相似性关系,每个和弦图显示了相应一年的多语种主题关系。阈值是一年中所有相似值的平均值的两倍。"En"主题来自英语语料库,而"Zh"则表示中文主题。在2009-2013 年数据集中,属于En2 的单词

(信息、Web 和用户)和En8(知识、健康和管理)对应于中文主题Zh13(ᓃ

"数据库"、"互联网"和"图表")和Zh16("文化"、"信息"和"农村地区"),揭示了不同语言中相互重叠的研究重点。正如2014年和弦图所示,Zh5和Zh19中文和En12和En13英语主题具有最高的相似性。根据单语主题演变中每个时期的职位数和以前关系,我们将关键主题定义为前五个主题。正如我们从英语主题演变(图5)中可以看到的,En14 12 和14 13 是关键主题。因此,我们可以预测,Zh5和Zh19将是中国语料库中的关键主题。从中国进化(图6)中我们可以看到,Zh14 5和1419是中方的主要进化主题。这意味着,当在多语言中给定一个主题演化过程和主题相似性关系时,我们可以比较两个主题演化过程之间的差异,并预测目标语言中的关键主题。因此,我们提出的方法在不依赖作者主观翻译的情况下,解决机器翻译的缺口,有助于避免作者在文章中主观使用英文关键词所造成的潜在混淆和误用。

在单语演进中,我们根据帖子数量和以前关系选择前五个主题作为每个时期的关键主题。之后,我们根据LDA和Bert嵌入计算和按相似性分数计算和排名多语言相似性。然后,我们评估了多语种关系中的前五名和十大相似之处。精度分数表示如果主题是源语言中的关键主题,则目标语言中与源语言中的主题具有高度相似性的其他主题也是关键主题。在按相似性计算,前五大多语种关系中,80% 的关系在大多数时间段内由每种语言的关键主题链接(表9)。

5. 结论以前关于专题分析的研究通常仅限于网络或LDA。在这项基于LIS的研究中,我们应用LDAandBERT嵌入来计算目标主题的上一次和后期相似性,以显示单语研究研究课题的演变;此外,我们还分析了多语种主题相似性关系。

我们从科学网收集了英语LIS 文章的摘要,从CNKI 收集了中文数据。首先,我们使用LDA 为每种语言生成主题分发;然后,我们使用中文、英文和多语种预训练的BERT 嵌入来计算单语上下文中上一年与后各主题单词之间的平均张量相似性,同时在多语种情况下计算同一年的每个主题单词。最后,我们乘以LDA概率值,对BERT嵌入的张量相似性进行平均。

关于英语数据集,健康信息分析在2014年流行起来。2015 年,许多科学领域开始考虑数据隐私和安全。到2016 和2017 年,社交媒体挖掘和开放获取公共服务分析已成为LIS 的热门话题。对于中国数据集来说,中美图书馆学的比较研究是2014年的热点问题。2015 年,可视化和数字图书馆等主题开始流行起来。2016年,研究人员开始对公共文化服务体系感兴趣。我们的分析证明,2016年智囊团研究经费在大学中很普遍。2017年,区域差异库相关性分析的使用被广泛报道。

在多语言结果中,我们的方法可以使用源语言中具有多语言相似性的给定主题演化来预测目标语言中的关键主题。因此,我们提出的方法避免了机器翻译的缺口。此外,我们的方法不依赖于主观翻译。

本研究的一个主要局限性是,我们每年只分析一个学科(LIS),而忽略了与其他学科和新兴学科的主题集成。今后,我们计划更全面地分析多学科的学科演变,并将该方法应用于多语种论文的推荐任务。

分析报告和整改措施

原因分析和整改措施

秘书工作介绍信使用和保管

科研经费管理和使用办法

跟单规划和岗位职责

本文标题: 使用LDA和BERT嵌入的单语和多语言主题分析
链接地址:https://www.dawendou.com/fanwen/qitafanwen/488656.html

版权声明:
1.大文斗范文网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《使用LDA和BERT嵌入的单语和多语言主题分析》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。

重点推荐栏目

关于大文斗范文网 | 在线投稿 | 网站声明 | 联系我们 | 网站帮助 | 投诉与建议 | 人才招聘 | 网站大事记
Copyright © 2004-2025 dawendou.com Inc. All Rights Reserved.大文斗范文网 版权所有