unicodeエスケープされた文字列を正規表現抽出するとき悩んだ話

プログラミング

2018.10.27

死ぬほどめんどくさいunicode問題ですが、イマイチ理解ができないままです。ですがなんとなく抽出できたので書き置きます。

ぶち当たった壁

Webなんかのスクレイピングをしているときに、取得したテキストやらをみてみると、何やら何やら感やらで表現された文字列が並んでいる…printすればなんか普通っぽく表示されるのに…ちなみに環境はpython 2.7系です。

案の定、普通に正規表現使ってピックアップしようとしてもニントモカントモ。unicodeエスケープってやつですか？これでは文字列を正規表現使ってピックアップしたくてもうまくいかない…

正規表現自体はここをみて、恐らくは正しいはず…

正規表現オンラインテストサイトなるものがあるので、文字列と正規表現を入れてみてテスト…うまくいった！

ならば尚更なぜ！？文字コードが変だからかなー。

ここに詳しく書いてございました。encodeしたりdecodeしたり…が、うまくいかず。なんやねん。普通に動くのに、encodeされてるの？

「Unicode Escape Sequence」なるサイトで、日本語文字列をunicodeに変換して…

できた！コードはこんな感じ。

re.match(u'(.*)(?=[\u3000])’, target_string)

引っ掛けたい文字列をエスケープされた文字列で書くんですが、クォーテーションの前にunicodeを指定する「u」を入れるみたい。

いやー正直文字列コードの内容は全然理解できてないんですが、無理くりにでもなんとか正規表現にかけることができるようになりました。python3.0系にするとこんなこと悩まないのかなー。