unicodeエスケープされた文字列を正規表現抽出するとき悩んだ話

unicodeエスケープされた文字列を正規表現抽出するとき悩んだ話 プログラミング
スポンサーリンク

死ぬほどめんどくさいunicode問題ですが、イマイチ理解ができないままです。ですがなんとなく抽出できたので書き置きます。

スポンサーリンク

ぶち当たった壁

プログラム

Webなんかのスクレイピングをしているときに、取得したテキストやらをみてみると、何やら何やら感やらで表現された文字列が並んでいる…printすればなんか普通っぽく表示されるのに…ちなみに環境はpython 2.7系です。

案の定、普通に正規表現使ってピックアップしようとしてもニントモカントモ。unicodeエスケープってやつですか?これでは文字列を正規表現使ってピックアップしたくてもうまくいかない…

正規表現がうまくいっていない?

正規表現自体はここをみて、恐らくは正しいはず…

サルにもわかる正規表現入門

正規表現オンラインテストサイトなるものがあるので、文字列と正規表現を入れてみてテスト…うまくいった!

Regular Expression Test Drive
Regular Expression Test Drive

ならば尚更なぜ!?文字コードが変だからかなー。

unicodeエスケープされた文字列を変換できないものか

PythonでUnicodeエスケープされた文字列・バイト列を変換 | note.nkmk.me
Pythonにおいて、\u3042のように\uと4桁の16進数からなるUnicodeエスケープシーケンスを含む文字列(str)・バイト列(bytes)を相互に変換する方法を説明する。 Unicodeエスケープシーケンスは文字化けしたように見...

ここに詳しく書いてございました。encodeしたりdecodeしたり…が、うまくいかず。なんやねん。普通に動くのに、encodeされてるの?

じゃぁ、unicodeエスケープされたまま正規表現で引っかければいいじゃない

「Unicode Escape Sequence」なるサイトで、日本語文字列をunicodeに変換して…

Unicode Escape Sequence | KWONLINE.ORG

できた!コードはこんな感じ。

re.match(u'(.*)(?=[\u3000])’, target_string)

引っ掛けたい文字列をエスケープされた文字列で書くんですが、クォーテーションの前にunicodeを指定する「u」を入れるみたい。

まとめ

いやー正直文字列コードの内容は全然理解できてないんですが、無理くりにでもなんとか正規表現にかけることができるようになりました。python3.0系にするとこんなこと悩まないのかなー。

コメント

タイトルとURLをコピーしました