本报讯 全球通用自动驾驶公司第一股文远知行在无锡又有大动作。日前,其旗下全资子公司景烁科技“高端大模型训练基地”项目落地无锡经开区,引入以大模型数据精标人才为主的团队,并以此为基础申报国家级大模型数据标注基地。
在当今人工智能蓬勃发展的时代,大模型无疑是其中最为耀眼的明星,人们熟知的DeepSeek、豆包等皆属于大模型类产品。而这些大模型为何能如此“机智”?这离不开 “训练师”——“数据标注”的帮助。
数据标注是人工智能产业链中不可或缺的一环,对大模型的原始数据进行处理和标记,让大模型更智慧、更像人。这些原始数据涵盖了文本、图像、音频等各种形式,它们就像未经雕琢的璞玉,杂乱无章地存在着。数据标注员们如同技艺精湛的工匠,根据不同的需求和标准,为这些数据赋予特定的标签和注释。
“目前翻译类大模型,很难将中文的古诗贴切地翻译为英文。”景烁科技相关负责人举例,但通过人工不断校准,向大模型不断输入人的想法与思维逻辑,大模型能准确、优美地翻译古诗将成为可能。
景烁科技的目标正是要利用人工智能等技术,逐步扭转数据标注一贯以来“人力密集”的标签。“我们已自研一款智能化专业工具。”景烁科技相关负责人透露,在景烁科技的一个项目中,有大量的抠图需求,起初客户通过人工使用抠图软件来实现,但景烁科技的专业工具则能自动识别衣服的边界,实现AI轻松“抠图”,后续只需人工微调即可,节省一半的时间。经过比较,该客户果断选择景烁科技的专业工具。
“在无锡的‘落子’,本身就是布局未来。” 景烁科技代表告诉记者,随着各类大模型的出现,专业、细分的垂类大模型将成为市场的主流,但这对数据标注工作的专业度与逻辑力提出了更高的要求。而无锡拥有医药、集成电路、新能源等丰厚的产业底蕴,为企业在各产业专业度的培养提供“肥沃的土壤”。景烁科技也将积极投身无锡“465”现代产业集群建设,依托无锡经开区的算力优势,以人工智能大模型推动传统产业转型升级、新兴产业壮大,(下转第2版)
“机智”大模型,离不开“训练师”帮助
(上接第1版)并引入上下游企业落户经开区,打造长三角最大规模的高端大模型数据标注基地。
自全省首个数据要素产业园(先行区)落地经开区以来,经开区积极发挥产业科技创新的优势,加快科技创新和产业创新深度融合:与中科曙光共同部署的先进计算中心,是经开区聚力打造数字产业的人工智能算力底座;去年7月,全省首个数据要素产业园落户经开,为推动产业数字化、数字产业化再添筹码。这些在数字经济发展方面的“先手棋”,促成了经开区较好的数字产业基础,有利于数据标注产业快速扎根发芽。
未来,经开区将与景烁科技等人工智能企业一道,不断深化合作内容,拓展合作领域,共同应对数据标注基地建设、人工智能发展中的机遇与挑战;并以此次合作为契机,集聚科技型与资源型龙头企业,吸引高质量数据服务提供商,发掘前沿性、革命性、颠覆性研究应用,培育本地的数字经济人才,持续带动数字产业化项目落地,加速经开区数字经济高质量发展。(徐兢辉、陆飞宇)