solidot新版网站常见问题,请点击这里查看。
消息
本文已被查看 4991 次
富士通等发布增强日语能力的大模型 Fugaku-LLM
日本东京工业大学、理化学研究所、富士通等发布增强日语能力的大模型 Fugaku-LLM,移植了 Megatron-DeepSpeed 深度学习框架,源代码托管在 GitHub 上,公众可通过 Fujitsu Research Portal 网站试用。Fugaku-LLM 有 130 亿参数,日语 MT-Bench 平均分 5.5,其人文和社会科学得分高达 9.18 分。Fugaku-LLM使用了日本最强大的 ARM 超算富岳进行了训练。
https://www.fujitsu.com/global/about/resources/news/press-releases/2024/0510-01.html
https://en-portal.research.global.fujitsu.com/
https://github.com/Fugaku-LLM/DeepSpeedFugaku
https://www.fujitsu.com/global/about/resources/news/press-releases/2024/0510-01.html
https://en-portal.research.global.fujitsu.com/
https://github.com/Fugaku-LLM/DeepSpeedFugaku