死ぬほどめんどくさいunicode問題ですが、イマイチ理解ができないままです。ですがなんとなく抽出できたので書き置きます。
ぶち当たった壁
Webなんかのスクレイピングをしているときに、取得したテキストやらをみてみると、何やら何やら感やらで表現された文字列が並んでいる…printすればなんか普通っぽく表示されるのに…ちなみに環境はpython 2.7系です。
案の定、普通に正規表現使ってピックアップしようとしてもニントモカントモ。unicodeエスケープってやつですか?これでは文字列を正規表現使ってピックアップしたくてもうまくいかない…
正規表現がうまくいっていない?
正規表現自体はここをみて、恐らくは正しいはず…
サルにもわかる正規表現入門
正規表現オンラインテストサイトなるものがあるので、文字列と正規表現を入れてみてテスト…うまくいった!
Regular Expression Test Drive
Regular Expression Test Drive
ならば尚更なぜ!?文字コードが変だからかなー。
unicodeエスケープされた文字列を変換できないものか
PythonでUnicodeエスケープされた文字列・バイト列を変換 | note.nkmk.me
Pythonにおいて、\u3042のように\uと4桁の16進数からなるUnicodeエスケープシーケンスを含む文字列(str)・バイト列(bytes)を相互に変換する方法を説明する。 Unicodeエスケープシーケンスは文字化けしたように見...
ここに詳しく書いてございました。encodeしたりdecodeしたり…が、うまくいかず。なんやねん。普通に動くのに、encodeされてるの?
じゃぁ、unicodeエスケープされたまま正規表現で引っかければいいじゃない
「Unicode Escape Sequence」なるサイトで、日本語文字列をunicodeに変換して…
Unicode Escape Sequence | KWONLINE.ORG
できた!コードはこんな感じ。
re.match(u'(.*)(?=[\u3000])’, target_string)
引っ掛けたい文字列をエスケープされた文字列で書くんですが、クォーテーションの前にunicodeを指定する「u」を入れるみたい。
まとめ
いやー正直文字列コードの内容は全然理解できてないんですが、無理くりにでもなんとか正規表現にかけることができるようになりました。python3.0系にするとこんなこと悩まないのかなー。
コメント