调研情况:
伴随着大数据、大算力的爆发式增长,全球各国的大规模预训练模型(以下简称“大模型”)快速涌现,北上广深等城市陆续发布大模型产业相关支持政策。
问题分析:
我省的大模型企业数量排名全国第三,但是在高新技术企业、专精特新企业、链主企业和上市企业方面明显落后于头部省市,呈现多而不强的局面。
大模型研发,属于全世界关注的前沿技术。当前要抢抓大模型产业发展的重大战略机遇,充分发挥我省在数据要素、人才资源、产业应用等优势,把我省加快建设成为具有全球影响力的产业科技创新中心。
具体建议:
一、 建立基础大模型技术标准框架
围绕“模型开发、模型能力、模型运营、模型应用、安全可信”五个方面,建立基础大模型技术标准框架。在数据清洗、数据质检、数据版本管理、开发过程稳定性、资源优化调度、有效计算能力、镜像管理、版本管理、日志管理、模型微调、模型转换、模型蒸馏、开发流程一体化等方面提供相应模型开发指标;进行基础大模型、领域大模型、行业大模型界定,明确任务领域和模型能力;构建数据处理和回流、模型训练与微调、模型压缩与测试、服务部署与托管、平台支撑能力等机制,有效支撑模型运营;重点关注任务支持度、场景丰富度、行业覆盖度、服务成熟度等模型应用维度;从基础设施、数据、算法、模型、应用等大模型关键层级制定安全可信的指标要求和评估方法。
二、 建立公共数据开放平台,创建高品质的多模态中文数据集
完善我省一体化大数据共享交换平台,提升数据服务能力,同时汇聚高质量与高可用的中文数据,开展公共数据标注攻坚行动。推进全省公共数据开放平台体系建设,推动长三角地区公共数据开放、政府数据授权运营试点,构建面向行业的高质量中文语料数据库,推动典型行业数据汇集、访问、共享、处理和使用。打造高品质数据集及精细标注平台,并促成数据标注联盟成立,以制定行业标准,同时建立人工智能产业数据资源目录,集合行业数据,从而提高人工智能数据标注库的规模和质量。基于隐私计算支撑样本数据流通安全,搭建可信数据标注和模型训练环境;通过区块链等技术实现 “数据开放流程可控可追溯”;通过多方安全计算等技术实现 “数据使用可控可计量”,保障公共数据开放的隐私保护、安全管理等问题。
三、构筑大模型人才汇聚高地
开展江苏省大模型产业人才培育工程,发挥高校在人工智能创新应用重要作用,提高通用人工智能通识教育力度。大力支持高校、企业和科研机构之间的融合发展,打造“专项课堂”,使通用人工智能技术深入产业应用,满足人工智能产业发展日益增长的人才需求。推出企业人才汇聚计划,在制造业、软件等传统优势产业领域,推动企业与高校合作设立大模型产业人才实训基地,提供实操培训机会,培养出更多具备落地应用能力的人工智能产业人才。通过举办高水平的赛事,发现和吸引优秀的大模型研究团队和人才集聚南京,对取得重大成果的予以专项奖励,推动打造具备核心竞争力的大模型创新型领军人才团队,形成江苏省大模型领域人才集聚区。
四、推进大模型共享生态建设
推动大模型的开源社区及协同平台建设,打造开放共享的大模型创新应用社区,促进研究者和开发者便捷交流,共同参与模型的改进和升级,为大模型产业应用注入更多创新活力。搭建大模型产业生态孵化平台,提供算法模型、智能工具、数据算力等资源支持,赋能生态伙伴协同推进关键技术攻关,促进大模型技术在垂直领域的深度融合应用,加速大模型产业的发展。