返回列表 发布新帖

古彝文图文识别系统与《西南彝志》全文数据库建设取得阶段性成果

10 0
发表于 5 小时前 | 查看全部 阅读模式
合影.png

2025年4月25日下午,由中国社会科学院民族学与人类学研究所民族语言文化行为实验室、中国社会科学院中国少数民族语言研究中心联合主办的“古彝文识别及《西南彝志》全文数据库研究进展交流会”在京召开。本次会议演示了古彝文三种字体的字符识别模型以及《西南彝志》全文检索单机版和网络版数据库。古彝文字符识别和文献数据库建设也是国家社科基金重大项目“少数民族语言文献的文本识别技术研究”的阶段性成果。
国家民委全国少数民族古籍整理研究室杨硕副主任,中国社会科学院民族学与人类学研究所副所长(主持所务工作)丁赛研究员,中国社会科学院语言研究所副所长王锋研究员出席会议,民族语言文化行为实验室主任龙从军研究员主持会议。
交流会.png

中央民族大学曲木铁西教授、胡素华教授,贵州工程应用技术学院王明贵研究员,云南民族出版社张一龙教授,西南民族大学摩瑟磁火教授,广西彝学学会罗乌支会长,中国社会科学院民族学与人类学研究所孙伯君、李云兵、黄成龙、陈国庆、普忠良、张军等研究员,民族语言文化行为研究室孔敬、安波、兰正群等参加会议。不同领域、不同单位的专家学者,以古彝文数字化与《西南彝志》文献数据库建设为纽带,共同搭建学术交流与智慧碰撞的平台。
丁赛副所长在致辞中强调,民族文字文献信息化、智能化研究是民族语言文化行为实验室建设的重点工作之一,此次会议是古彝文识别和深化研究关键节点,也承载着推动学术进步的重要使命。她指出,民族语言文化行为实验研究室在古彝文信息化领域的进展,皆是学界集体智慧的结晶。她特别提到,民族学与人类学研究所始终高度重视民族语言的保护与传承工作,在国际与国内双重视角下,借助AI技术赋能古老文明的传承,让民族文化以更鲜活的姿态走进大众视野。她呼吁,期望在国家民委及各界专家的支持下,各方携手推进古彝文文献资源库建设,共同守护民族文化根脉,为构建中华文化、中华现代文明注入强劲动力。
龙从军研究员围绕古彝文OCR研究与《西南彝志》全文语料库建设作专题汇报,他详细报告了研究缘起、研究目标、研究过程与阶段性成果。他指出,当前研究紧密贴合教育部、国家语委等联合发布的《关于加强数字中文建设 推进语言文字信息化发展的意见》,以数字化传承中华语言文化为目标,致力于提升古彝文在数字空间的应用价值与国际影响力。
在技术攻坚方面,针对古彝文计算机表示的核心难题,团队与中科院软件所开展深度合作,成功制作16000个字符编码,为古彝文的数字化存储与处理奠定基础。面对彝文输入法复杂、学习难度大的问题,创新性采用国际音标输入古彝文的方法,团队采用“人工录入+技术处理”的双轨模式构建训练数据集,持续优化识别模型。通过不断迭代,逐步解决古彝文标注数据少、识别率低等瓶颈问题,提升了古彝文全文文献库的建设速度。
识别系统.png

龙从军研究员现场演示了古彝文三个字符模型的效果和《西南彝志》全文数据库功能,他希望与会专家学者下载和使用识别工具,并反馈使用中遇到的问题,课题组将针对性的解决,不断改进、完善识别模型。
古彝文献数据库.png

课题组在古彝文识别和资源库建设过程中积累的经验也助力民族语言文化行为实验室实现“人机共享结构化数据资源”的短期目标。通过《西南彝志》语料库建设,进一步挖掘古彝文承载的历史文化内涵,推动民族语言文化研究,为阐释多民族交往交流交融的历史脉络、深化中华民族共同体认知研究提供重要支撑。
会议讨论环节,十多位与会专家积极发言,对本项研究工作建言献策,他们充分肯定了研究成果的价值,从不同的角度提出一些建议,也表示了与民族所科研团队一道共同推动古彝文信息化和深度内容研究的愿望。
王明贵研究员首先肯定数据库建设的重要性,并点明自己主要从事文献研究,且取得了一些成就。后续有需要可以共享文献研究成果。
摩瑟磁火指出当前古彝文研究存在学者少、研究力量薄弱的问题。由于彝文地域差异大,规范前记法多样,运用计算机手段整理海量文献存在技术困难,且文字结构化研究不足,彝文笔画形态丰富多变。最后他提出后续和民族所加强合作,共享研究资料,助力古彝文研究。
张一龙教授代表云南民族出版社介绍了出版社以少数民族文字出版为核心、涉足多种数字出版业务的背景,指出当前彝文古籍出版面临三大难题:古文字解读材料稀缺、学术研究与翻译缺乏工具书、存在文化知识产权纠纷。针对这些问题,他提出两方面建议:一是完善古彝文字符编码,明确异体字正字定义,建立字符标准与国际编码,扩大字符收集范围并科学整理;二是规范数字开发技术流程,明确数据权属,优先保障公共领域使用,及时登记著作权,防止数字成果泄露。
曲木铁西教授提到在推进彝族古籍文献研究工作中,开展文献全文数据库建设,此举措意义深远。彝族古籍文献体量庞大、内容丰富,目前已初步完成收集整理工作,要积极谋划进一步深化整理。当前,彝族古籍研究整体仍处于起步阶段,彝文文字研究面临显著困境。长期以来,学界多沿用“六书”理论解析彝文造字法,却难以形成系统性阐释,现存研究仅能枚举少量例证,无法覆盖彝文造字全貌。专业从事彝文文字研究的专家稀缺,亟待构建科学完备的彝文造字理论体系,数字化成果对推动彝文研究意义重大。此外,彝文异体字问题普遍存在于各类文献中,亦是古籍整理与研究亟需攻克的重要课题。未来,加快制定古彝文字符标准,成为推动彝族古籍研究高质量发展的迫切需求。
胡素华教授首先点明彝文作为世界四大古典文字之一,与汉字演变相近,同属表意系统,但当前彝文研究发展滞后。由于古彝文存在异体字、变体字且缺乏规范,研究难度较大。其自身研究经历从社会语言学角度探讨彝文发展前景,转向语言学文字与文献研究结合。她着重强调数据库对古文献研究价值重大,尤其《西南彝志》全文检索功能为研究及交叉学科发展提供便利。
罗乌支会长指出彝族重要文献《西南彝志》,其内容丰富,涵盖彝族社会各方面,有望让世界认知彝族文化,且或许能为广西相关研究提供线索。彝文古籍人才日益减少,专业取消后令人惋惜。如今借助计算机和现代科学解决了彝文古籍的一些问题,使原本只有懂彝语的人能读懂的古籍实现智能化解读,让更多对文化感兴趣的人得以研究。彝文古籍研究不仅利于本民族文化发展,还有助于民族间文化相互交流交融,可能探寻到其他民族文化根源,对中华民族乃至人类文明都有积极贡献。
王锋研究员指出随着各民族多文种识别研究不断推进,有望实现文字识别领域的综合性突破,助力相对薄弱的少数民族文字研究在数量与质量上实现双提升,推动民族文字研究进入数字化新阶段。当下的数字化研究依托人工智能技术,不同于传统书籍扫描,为民族文字研究建设、人才培养注入新活力。信息技术可以降低古文字文献的研究难度,激发年轻人的研究兴趣。多语种多文种信息化建设意义重大,其数据库服务范围广泛,涵盖社会历史、宗族文化、中华传统文化等多学科领域,具备知识与文化双重属性,可实现多元信息提取和共享。
孙伯君指出彝文数字化推进困难,根源在于其从古至今自由发展,缺乏王朝统一规范,导致各地彝文不统一、别字多,逐渐音节化且意义模糊,同时受宗教因素影响,相关研究落后于其他文字。最后呼吁多培养研究人才,为相关研究团队提供底层数据,形成底层数据收集与上层学术研究的良性循环,以推动彝文研究与数字化发展。
黄成龙研究员强调教科文组织对世界记忆遗产(古文字)的重视,阐述保护古文字遗产对后续研究的关键意义;他指出,信息技术提升民族古籍文献数字化建设,这对推动彝文文字造字法和内容挖掘研究方面极具价值。
普忠良研究员肯定古彝文文献数据库的重要价值,并提到这对语法分析、语法标注都有很大帮助的,特别是对于彝文文献和语言的研究有重要帮助。
李云兵研究员提出要加速扩大古彝文文献库的建设规模,全面收录云贵川等地区古彝文文献,这样才能更好研究构词法、字形变体及异音异写现象,并深入探究不同地区的使用差异及其历史成因;同时他指出古彝文与汉文的接触关系以及古彝文中的汉字元素等问题值得研究。他强调要推动多语言文字数据库建设,这样才能借助大数据关联分析实现创新突破。最后,他提出目前《西南彝志》缺乏语法标注,不利于不懂彝文的人文学者使用文献。
陈国庆研究员指出,人工智能技术在民族文字文献研究中的应用将带来学术研究方法的变革,他指出大规模的语音、词汇数据库有利于语音对比研究,相较于传统人工方式,大数据关联可能实现研究重大突破。他强调提供优质原始语料的重要性。
张军研究员高度赞扬运用大模型技术处理古文献的研究范式,他表示民族语言文化行为实验室团队将前沿技术应用于绝学、冷门学科,研究成果显著,肯定其技术整合与应用能力。同时,提出在实现技术突破的基础上,应思考如何在学术层面利用该技术挖掘民族古文献中的知识,形成学术成果,尤其是对《西南彝志》等文献进行深入研究,从战略高度展现彝族文化价值,为国家发展提供知识与智力支持,强调冷门绝学研究在技术助力下具备服务国家战略的潜力。
会议尾声,杨硕副主任对本次会议进行全面总结。首先,他高度肯定了项目的阶段性成果,他认为通过各方协作,彝文研究实现了重要成果共享,以古彝文文献数据为核心,语言学和文字学作为基础研究,这对构建中华民族共同体史料体系具有关键支撑意义。
杨硕副主任从现实需求角度提出多项建议。他着重强调古籍版本研究的重要性,指出当前古彝文文献存在异体字变体字复杂、版本年代鉴定困难等问题,尤其西南地区文献断代缺失严重,导致难以追溯古彝文规范字演变的过程。他建议数据库建设以雕版印刷文献为准较好,雕版印刷术对文字有一定的规范作用,此类文献是研究古彝文规范的重要依据,应加强对其系统性研究;同时提醒需遵循古籍国标与少数民族古籍定级标准,夯实古籍研究的科学性与规范性基础。
杨硕副主任结合自身经历,提出文献解读困境,呼吁加强对古籍背后文化内涵的挖掘与解析。此外,他强调应重视研究成果的传播与转化,推动优质资源融入中华民族史料体系建设,让彝文古籍在更广泛领域发挥价值。

回复

您需要登录后才可以回帖 登录 | 邀请注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

投诉/建议联系

ceo@yizu.co

未经授权禁止转载,复制和建立镜像,
如有违反,追究法律责任
  • 关注公众号
  • 添加微信客服
Copyright © 2007-2025 中国彝族网 版权所有 All Rights Reserved. Powered by Dz!X3.5 黔ICP备2021008899号-1
关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表