2020-05-23 | 技术 Python | 5 min read

此文章发表于 602 天前,请注意文章时效

上一篇文章我说到了由于老婆博士课题的原因,需要爬取今日头条的新闻评论,并且需要翻译成英文。我把评论的获取写成了文章,可以见此处。今天我准备把如何使用 python 将中文翻译成英文总结一下,以备参考与之后复习之用。

🐶1 为什么会有这篇文章

从老婆那边拿到的项目,她要求将今日头条的新闻评论翻译为英文,以为其博士课题服务。刚开始她是想着自己翻译,后来我我她大概需要多少评论翻译成英文,告诉我说大概800条…… 于是我就问她需不需要我先给她「机翻」一下,这样后期做较对要比自己翻译快很多。于是我就成功拿到了这个项目🤣🤣🤣🤣。

🐼️2 项目过程

2.1 确定思路

因为我自己也没有「根红苗正」的 python 学习经历,学习 python 完全是为了老婆的博士课题服务。因此这里讲到的思路可能并不是正统的程序员思路,姑且看之。

  1. 读取评论内容。从我们之前存入的数据库中读取评论内容。
  2. 找到谷歌翻译[1]的 API 接口,将评论传入。
  3. 处理返回的翻译结果。

2.2 谷歌翻译 API 的配置与使用

这一部分内容建议阅读谷歌官方给出的指南,非常详细。分为了 Basic 与 Advanced 两个版本,选择任何一个指南进行都可以完成我们翻译文本的目标。

谷歌翻译 API 可以点击这里阅读。简单说分为以下四步:

  1. 创建 Cloud Console project,并获得 Private Key (一个 json 文件)
  2. 将第1步得到的 private key 添加到环境变量中
  3. 配置 Google Cloud SDK (此步骤又包含了许多小步骤)
  4. 安装 google-cloud-translate==2.0.1 python 库。
pip3 install google-cloud-translate==2.0.1

2.3 代码实现

其实分析到这里,整个项目也差不多完成了。剩下的代码部分比较简单。可以分为两步:1.引入 google-cloud-translate 库。 2. 传入评论。

  1. 引入 google-cloud-translate 库
from google.cloud import translate_v2 as translate
# 引入 google.cloud 库,并重命名
translate_client=translate.Client()
# 创建translate对象
  1. 传入评论内容,并处理返回结果 [2]
def translate_comment(col):
    print('开始%s翻译'% col)
    collection = mydb[col]
    collection.update_many({}, {'$set': {'Comment_English': 'none'}})
    # 获取评论 collection, 并且增加'Comment_English' 字段。
    querry = {"Comment_English": 'none'}
    comment_array = collection.find({}, {'comment_text': 1})
    print('已获取所有评论,准备开始翻译')
    for i in comment_array:
        ch_comment = emojis.decode(i['comment_text'])
        # 由于很多评论中使用了 emoji 谷歌翻译不能正确识别 emoji,所以需要使用 emoji 库将 emoji 转换为 unicode 编码。 emoji 就是 😂️😅️☺️ 这种。
        result=translate_client.translate(ch_comment,target_language='en')
        collection.update_one(querry, {'$set': {'Comment_English': result['translatedText']}})
        # 提交评论到谷歌翻译,并将返回的翻译结果更新 'Comment_English' 字段。
  1. 因为有多条新闻,所以有很多组评论,需要再写一个 for 循环。
collectionarray = mydb.list_collection_names()
i = 1
for col in collectionarray:
    translate_comment(col)
    print('已经完成%d个库评论数据翻译' % i)
    i += 1

2.4 说明

如果是在像 pycharm 这样的 IDE 中执行上面的程序,很大概率(之所以说很大概率是因为我只在 pycharm 中运行过)遇到报错,提示谷歌凭证配置错误。不要担心,只要你是按照上面指南配置,那应该不会有错。之所以出现这个报错是因为只能在 cmd 或者 terminal 中运行。到命令终端中运行刚刚写的 py 文件,看看是不是正常执行。如果还不正常,就按照上面的指南再配置一遍。

🦁️3 总结

3.1 使用到库

  1. pymongo 数据库
  2. emojis 处理评论中的 emoji,防止谷歌翻译报错
  3. google.cloud 谷歌翻译库

3.2 pymongo 修改/新增字段

update/update_many/update_one


  1. 这里选择谷歌翻译是因为人在英国,并且个人感觉谷歌翻译可能会比较准确一点? ↩︎

  2. 再次说一下,这个项目中不一定非得使用数据库来存储,增加新字段,并更新字段浪费了我不少时间去学习🤪🤪🤪。 ↩︎

本文链接:https://willisfusu.github.io/post/jin-ri-tou-tiao-2/

此文章由李二先生采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可,转载请注明出处。

🎉🎉🎉 我开通了Newsletter,欢迎订阅! 🎉🎉🎉