![](/wp-content/uploads/2024/02/frc-3f71dfca5120c8fa9c04afeca1d5638b.jpg)
目前一个讲少数民族语言的人,必须放下母语,改用英语,才能获得科技。
照片:afp via getty images / Sebastien Bozon
RCI
————
不列颠哥伦比亚大学语言学系的程式员兼学者阿德巴拉 Ife Adebara 说,人工智能发展迅速,却把英语以外语言的人抛在后面。
阿德巴拉的使命,是让非洲大陆的所有人都能使用他们的语言使用科技。
![](/wp-content/uploads/2024/02/frc-cdffb15e29d934a562c9a2f5a6f40546.jpg)
不列颠哥伦比亚大学语言学系的学者阿德巴拉(Ife Adebara)。
照片:Le site web de l’Université de Colombie Britannique.
阿德巴拉表示,目前一个讲少数民族语言的人,必须放下母语,改用英语,才能获得科技。
可导致语言濒危
她说,这样他们使用母语的机会会慢慢减少,长远下去,可能会令语言濒危。
她的项目名为 非洲为本自然语言处理
(Afrocentric Natural Language Processing),致力为讲非洲语言(包括斯瓦希里语 Swahili 和祖鲁语 Zulu)的大众提供工具、程式,并提高外界的意识。
团队至今已经在线发布了两个语言识别程式,分别名 SERENGETI(新窗口) 和 AfroLID(新窗口)。
以下为阿德巴拉接受CBC采访的精华。
让非洲的声音被听见
问:什么是人工智能和非洲语言计划?
阿德巴拉:我们的想法是用非洲人的本土语言为他们提供科技,那他们就可以用他们感觉最舒服的语言与科技互动。
问:你们正在研究哪些语言?
阿德巴拉:非洲有二千多种语言。目前我正在研究其中 517 种,来自非洲 54 个国家中的 50 个国家,日后还会增加,我的目标是尽可能使用非洲大陆上的语言。
![](/wp-content/uploads/2024/02/frc-f3d5740ab8240fafa101b4aea91c64d3.jpg)
非洲有 54 个国家,二千多种语言。
照片:Université de Montréal (PRAME)
有些"低资源语言",即没有足够数据来为人工智能建立经典语言模型的语言,令项目面临挑战。其中一个解决方法,就是将多种语言整合到同一个模型中,让模型能从多种语言中学习,改善性能。但若要达到接近人类的准确度,仍然需要更多数据来实现。
问:为什么要确保非洲语言不会在这些科技发展中落后?
阿德巴拉:这有两个原因。第一个是非洲有超过十亿人,约占世界人口 17%。他们常被排除在全球对话之外,他们不知道别界的声见,他们的声音也没有被听见。
另一原因是,许多非洲语言的语法非常特别,有时甚至是非洲大陆独有的。如果在构建语言技术时,将非洲语言排除在外,那么这些技术就无法学习这些语言的特点。这对科技本身也非好事,因为这会令科技无法适应人类语言中存在的不同语法特征。
问:您希望这个项目能实现什么目标?
阿德巴拉:我希望这些技术能够为普通非洲人所掌握和使用。这肯定会对教育产生长期影响。
他们可以用自己的语言访问网络上的信息,将一切翻译成他们的语言。我希望日后大众能用自己的语言获取健康的信息,或是可以使用谷歌地图。
CBC, Ali Pitargue et The Early Edition, adaptation en chinois par Donna Chan.
文章来源于RCI:将人工智能技术结合 500 多种非洲语言