solidot新版网站常见问题,请点击这里查看。

富士通等发布增强日语能力的大模型 Fugaku-LLM

人工智能
Wilson (42865)发表于 2024年05月11日 18时49分 星期六

来自空色勾玉
日本东京工业大学、理化学研究所、富士通等发布增强日语能力的大模型 Fugaku-LLM,移植了 Megatron-DeepSpeed 深度学习框架,源代码托管在 GitHub 上,公众可通过 Fujitsu Research Portal 网站试用。Fugaku-LLM 有 130 亿参数,日语 MT-Bench 平均分 5.5,其人文和社会科学得分高达 9.18 分。Fugaku-LLM使用了日本最强大的 ARM 超算富岳进行了训练。


https://www.fujitsu.com/global/about/resources/news/press-releases/2024/0510-01.html
https://en-portal.research.global.fujitsu.com/
https://github.com/Fugaku-LLM/DeepSpeedFugaku