内容持续更新中
在大型语言模型领域,Meta旗下Galactica模型因幻觉问题在发布仅三天后被下线。模型被认为是早期尝试,对Meta后续项目产生积极影响。模型发布时由于人手稀缺未充分检查基础模型,但模型第一作者Ro…
来源:Deeplearning.AI授课教师:Harrison Chase,LangChain联合创始人兼首席执行官授课语言:英语课程开始时间:限时免费,随时可学课程时长:1个小时 点此直达课程>…
据站长之家11月9日消息,亚马逊正在秘密开发一个代号为“Olympus”的大型语言模型,参数高达惊人的2万亿个,是OpenAI最新推出的GPT-4参数的两倍。这将使Olympus成为当前公开的模型参数…
近期,研究人员推出了由LLM驱动的3D生成技术,使用户只需用简短的文本描述就能生成复杂的3D场景。这一技术有望彻底改变3D建模行业,提供了高效的任务分解和编辑功能。尽管项目代码尚未发布,但已经获得了1…
国际评级机构穆迪正在推出一项新技术,该技术由生成式人工智能支持,目的是帮助员工在分析大量数据和编写报告的过程中节省时间。穆迪为员工提供了来自谷歌云的大型语言模型,可以快速筛选公开文件和公司数据库中的信…
瑞士初创公司 Lakera 最近发布了一款旨在保护企业免受大型语言模型的恶意提示攻击的 API。他们通过开发互动游戏 “Gandalf” 来建立攻击分类系统,并致力于保护数据安全和过滤不适宜儿童的内容…
最新研究揭示大型语言模型存在关键漏洞,可能导致私人信息泄露和有针对性攻击。这种名为“模型寄生”的攻击方法可以在低成本下复制模型,并成功传递于封闭源和开源机器学习模型之间。尽管大型语言模型具有巨大潜力,…
最新研究揭示,DeepMind的大型语言模型在文本之外的领域,尤其是图像和音频数据的压缩方面表现出色。这项研究将LLMs重新定义为强大的数据压缩器,而不仅仅是文本生成模型。LLMs的性能与数据集大小相…
研究表明,大型预训练语言模型(LLM),如GPT-3,具有出色的能力,可以理解和回答人类提出的问题,协助编码工作等。最近,研究人员引入了RAIN方法,使LLM能够自我评估和改进,无需额外数据和微调。这…
纽约人工智能创业公司 Arthur 发布了开源工具 ArthurBench,用于评估和比较大型语言模型的性能。ArthurBench 可以帮助企业在特定用例上测试不同语言模型的性能,并提供准确性、可读…
本文介绍了大型语言模型在企业使用中的挑战,并指出较小的语言模型更适应企业需求。较小的语言模型操作和训练更快,准确性更高。此外,较小的语言模型具有定制能力强的优势,可以与其他数据集结合使用,为企业提供更…
DeepMind 的研究人员通过研究发现,大型语言模型容易出现阿谀奉承行为。为了解决这个问题,他们使用了简单的合成数据干预技术,并成功地减少了阿谀奉承行为的发生。研究结果显示,通过简单的合成数据微调可…