卓越飞翔博客卓越飞翔博客

卓越飞翔 - 您值得收藏的技术分享站
技术文章17048本站已运行3324

使用Python计算神经机器翻译的BLEU分数

使用Python计算神经机器翻译的BLEU分数

使用 NMT 或 NLP 中的神经机器翻译,我们可以将文本从给定语言翻译为目标语言。为了评估翻译的执行情况,我们使用 Python 中的 BLEU 或双语评估学生分数。

BLEU 分数的工作原理是将机器翻译的句子与人工翻译的句子进行比较,两者都采用 n 元语法。此外,随着句子长度的增加,BLEU 分数下降。一般来说,BLEU 分数的范围是 0 到 1,值越高表示质量越好。然而,获得满分的情况非常罕见。请注意,评估是在子串匹配的基础上完成的,它没有考虑语言的其他方面,如连贯性、时态和语法等。

公式

'
BLEU = BP * exp(1/n * sum_{i=1}^{n} log(p_i))

这里,各个术语具有以下含义 -

  • BP 是简洁惩罚。它根据两个文本的长度调整 BLEU 分数。其公式为 -

'
BP = min(1, exp(1 - (r / c)))
  • n是n-gram匹配的最大阶数

  • p_i 是精度分数

算法

  • 第 1 步 - 导入数据集库。

  • 步骤 2 - 使用 load_metric 函数并以 bleu 作为参数。

  • 第 3 步 - 根据翻译后的字符串的单词列出一个列表。

  • 步骤 4 - 使用所需输出字符串的单词重复步骤 3。

  • 步骤 5 - 使用 bleu.compute 查找 bleu 值。

示例 1

在此示例中,我们将使用 Python 的 NLTK 库来计算将德语句子机器翻译成英语的 BLEU 分数。

  • 源文本(英文)- 今天下雨

  • 机器翻译文本 - 今天下雨

  • 所需文本 - 今天下雨,今天下雨

虽然我们可以看到翻译没有正确完成,但我们可以通过查找蓝色分数来更好地了解翻译质量。

示例

'
#import the libraries
from datasets import load_metric
  
#use the load_metric function
bleu = load_metric("bleu")

#setup the predicted string
predictions = [["it", "rain", "today"]]

#setup the desired string
references = [
   [["it", "is", "raining", "today"], 
   ["it", "was", "raining", "today"]]
]

#print the values
print(bleu.compute(predictions=predictions, references=references))

输出

'
{\'bleu\': 0.0, \'precisions\': [0.6666666666666666, 0.0, 0.0, 0.0], \'brevity_penalty\': 0.7165313105737893, \'length_ratio\': 0.75, \'translation_length\': 3, \'reference_length\': 4}

您可以看到,翻译效果不是很好,因此,蓝色分数为 0。

示例 2

在此示例中,我们将再次计算 BLEU 分数。但这一次,我们将把一个法语句子机器翻译成英语。

  • 源文本(德语)- 我们要去旅行

  • 机器翻译的文本 - 我们要去旅行

  • 所需文字 - 我们要去旅行,我们要去旅行

您可以看到,这次翻译的文本更接近所需的文本。让我们检查一下它的 BLEU 分数。

示例

'
#import the libraries
from datasets import load_metric
  
#use the load_metric function
bleu = load_metric("bleu")

#steup the predicted string
predictions = [["we", "going", "on", "a", "trip"]]

#steup the desired string
references = [
   [["we", "are", "going", "on", "a", "trip"], 
   ["we", "were", "going", "on", "a", "trip"]]
]

#print the values
print(bleu.compute(predictions=predictions, references=references))

输出

'
{\'bleu\': 0.5789300674674098, \'precisions\': [1.0, 0.75, 0.6666666666666666, 0.5], \'brevity_penalty\': 0.8187307530779819, \'length_ratio\': 0.8333333333333334, \'translation_length\': 5, \'reference_length\': 6}

您可以看到,这次完成的翻译非常接近所需的输出,因此蓝色分数也高于 0.5。

结论

BLEU Score 是一个很棒的工具,可以检查翻译模型的效率,从而进一步改进它以产生更好的结果。尽管 BLEU 分数可用于粗略了解模型,但它仅限于特定词汇,并且常常忽略语言的细微差别。这就是 BLEU 分数与人类判断很少协调的原因。但您绝对可以尝试一些替代方案,例如 ROUGE 分数、METEOR 指标和 CIDEr 指标。

卓越飞翔博客
上一篇: C程序打印空心金字塔和菱形图案
下一篇: 返回列表
留言与评论(共有 0 条评论)
   
验证码:
隐藏边栏