天才一秒记住【长江书屋】地址:https://www.cjshuwu.com
斯坦
福大学等机构的研究者提出了
bert
模型,该模型通过大量的无监督学习来捕捉文本的上下文信
息,可以实现高精度的文本相似度计算。
bert
模型在多项自然语言处理任务中均取得了优异的表
现。
2.5
本章小结
本章主要介绍了本项目中使用的四种关键技术与模型。
这些技术主要基于大型语言模型,并且
依赖于
rag
技术的原理。
介绍了知识抽取技术,它利用先进的自然语言处理技术从文本中提取有意
义的信息和知识,随后讨论了文本处理中所使用的
rag
技术,该技术可以显着提高大型语言模型在
专业领域的性能,增强信息检索的准确性和效率。
最后探讨了在文本比对过程中所需的相似度计算
方法,这对于评估文本之间的相似程度至关重要。
了解清楚数据获取来源后,进行数据采集,数据采集的方法包括自动化和手动两种方式:
自动化采集:利用编写的
python
脚本通过
api
接口自动从上述数据库和期刊中下载文献和元
数据,部分代码如图
3.2
所示。
这种方法的优点是效率高,可以大量快速地收集数据。
使用
beautifulsoup
和
requests
库从开放获取的期刊网站爬取数据。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!