第369章写错编号了（第4页）

天才一秒记住【长江书屋】地址：https://www.cjshuwu.com

斯坦

福大学等机构的研究者提出了

bert

模型，该模型通过大量的无监督学习来捕捉文本的上下文信

息，可以实现高精度的文本相似度计算。

bert

模型在多项自然语言处理任务中均取得了优异的表

现。

2.5

本章小结

本章主要介绍了本项目中使用的四种关键技术与模型。

这些技术主要基于大型语言模型，并且

依赖于

rag

技术的原理。

介绍了知识抽取技术，它利用先进的自然语言处理技术从文本中提取有意

义的信息和知识，随后讨论了文本处理中所使用的

rag

技术，该技术可以显着提高大型语言模型在

专业领域的性能，增强信息检索的准确性和效率。

最后探讨了在文本比对过程中所需的相似度计算

方法，这对于评估文本之间的相似程度至关重要。

了解清楚数据获取来源后，进行数据采集，数据采集的方法包括自动化和手动两种方式：

自动化采集：利用编写的

python

脚本通过

api

接口自动从上述数据库和期刊中下载文献和元

数据，部分代码如图

3.2

所示。

这种方法的优点是效率高，可以大量快速地收集数据。

使用

beautifulsoup

和

requests

库从开放获取的期刊网站爬取数据。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第369章 写错编号了（第4页）