読者です 読者をやめる 読者になる 読者になる

Programming log - Shindo200

イベント参加記録とプログラミング系の雑記

新漢字と旧漢字の相互変換を行う gem を公開しました

新漢字と旧漢字の相互変換を行う gem を作って、Rubygems.org に公開しました。

ライブラリ shinji
https://rubygems.org/gems/shinji
https://github.com/odaillyJP/shinji

使い方

Rubygems.org から shinji をインストールします。

$ gem install shinji
Fetching: shinji-1.0.1.gem (100%)
Successfully installed shinji-1.0.1
1 gem installed

require で shinji を読み込むと、String クラスのインスタンスメソッドに shinji と kyuji が追加されます。
shinji メソッドは、文字列の中に含まれる旧漢字を新漢字に変換した文字列を返します。
kyuji メソッドは、文字列の中に含まれる新漢字を旧漢字に変換した文字列を返します。
使用例は以下の通りです。

require 'shinji'

puts "箱根駅伝2014 6区走者 廣瀨大貴".shinji
#=> 箱根駅伝2014 6区走者 広瀬大貴

puts "箱根駅伝2014 優勝 東洋大学 おめでとうございます".kyuji
# => 箱根驛傳2014 優勝 東洋大學 おめでとうございます

上記の例のように、人名や学校名などで旧漢字や新漢字を扱うことがあるときに使ってみてください。

嵌ったこととか

文化庁のページで公開されている常用漢字表PDFから旧漢字と新漢字を抜き出すのが面倒でした。

常用漢字表」(平成22年内閣告示第2号)
http://kokugo.bunka.go.jp/kokugo_nihongo/joho/kijun/naikaku/kanji/index.html

Ruby で PDF と戯れるの巻 - Qiita を参考にして PDF から旧漢字と新漢字を抜き出すスクリプトを書こうとしましたが、PDFを解析するのが大変過ぎでしたので、スクリプトを書くのは諦めました。
けっきょく Adobe Acrobat Pro で PDF を開いて、PDF をテキスト出力して、そのテキストから旧漢字と新漢字だけを抜き出すスクリプトを書いて対応しました。