Zac Hatfield Dodds

Cited by

	All	Since 2019
Citations	4863	4856
h-index	21	21
i10-index	21	21

2800

1400

700

2100

2020202120222023202413 30 224 2766 1808

Public access

View all

1 article

0 articles

available

not available

Based on funding mandates

Zac Hatfield Dodds

Anthropic; Australian National University

Verified email at anu.edu.au - Homepage


Title Sort by citations Sort by year Sort by title	Cited by Cited by	Year
The Astropy Project: sustaining and growing a community-oriented open-source project and the latest major release (v5. 0) of the core package AM Price-Whelan, PL Lim, N Earl, N Starkman, L Bradley, DL Shupe, ... The Astrophysical Journal 935 (2), 167, 2022	1369	2022
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback Y Bai, A Jones, K Ndousse, A Askell, A Chen, N DasSarma, D Drain, ... arXiv preprint arXiv:2204.05862, 2022	680	2022
Constitutional AI: Harmlessness from AI Feedback Y Bai, S Kadavath, S Kundu, A Askell, J Kernion, A Jones, A Chen, ... arXiv preprint arXiv:2212.08073, 2022	578	2022
In-context learning and induction heads C Olsson, N Elhage, N Nanda, N Joseph, N DasSarma, T Henighan, ... arXiv preprint arXiv:2209.11895, 2022	303*	2022
A mathematical framework for transformer circuits N Elhage, N Nanda, C Olsson, T Henighan, N Joseph, B Mann, A Askell, ... Transformer Circuits Thread 1, 1, 2021	278*	2021
A General Language Assistant as a Laboratory for Alignment A Askell, Y Bai, A Chen, D Drain, D Ganguli, T Henighan, A Jones, ... arXiv preprint arXiv:2112.00861, 2021	278*	2021
Language models (mostly) know what they know S Kadavath, T Conerly, A Askell, T Henighan, D Drain, E Perez, ... arXiv preprint arXiv:2207.05221, 2022	228	2022
Red teaming language models to reduce harms: Methods, scaling behaviors, and lessons learned D Ganguli, L Lovitt, J Kernion, A Askell, Y Bai, S Kadavath, B Mann, ... arXiv preprint arXiv:2209.07858, 2022	210	2022
Predictability and surprise in large generative models D Ganguli, D Hernandez, L Lovitt, A Askell, Y Bai, A Chen, T Conerly, ... Proceedings of the 2022 ACM Conference on Fairness, Accountability, and …, 2022	169	2022
Toy Models of Superposition N Elhage, T Hume, C Olsson, N Schiefer, T Henighan, S Kravec, ... arXiv preprint arXiv:2209.10652, 2022	139	2022
Discovering Language Model Behaviors with Model-Written Evaluations E Perez, S Ringer, K Lukošiūtė, K Nguyen, E Chen, S Heiner, C Pettit, ... arXiv preprint arXiv:2212.09251, 2022	123	2022
The capacity for moral self-correction in large language models D Ganguli, A Askell, N Schiefer, TI Liao, K Lukošiūtė, A Chen, A Goldie, ... arXiv preprint arXiv:2302.07459, 2023	92	2023
Hypothesis: A new approach to property-based testing DR MacIver, Z Hatfield-Dodds Journal of Open Source Software 4 (43), 1891, 2019	85*	2019
Towards Measuring the Representation of Subjective Global Opinions in Language Models E Durmus, K Nyugen, TI Liao, N Schiefer, A Askell, A Bakhtin, C Chen, ... arXiv preprint arXiv:2306.16388, 2023	61	2023
Scaling Laws and Interpretability of Learning from Repeated Data D Hernandez, T Brown, T Conerly, N DasSarma, D Drain, S El-Showk, ... arXiv preprint arXiv:2205.10487, 2022	56*	2022
Measuring progress on scalable oversight for large language models SR Bowman, J Hyun, E Perez, E Chen, C Pettit, S Heiner, K Lukošiūtė, ... arXiv preprint arXiv:2211.03540, 2022	41	2022
Towards Understanding Sycophancy in Language Models M Sharma, M Tong, T Korbak, D Duvenaud, A Askell, SR Bowman, ... arXiv preprint arXiv:2310.13548, 2023	38	2023
Measuring Faithfulness in Chain-of-Thought Reasoning T Lanham, A Chen, A Radhakrishnan, B Steiner, C Denison, ... arXiv preprint arXiv:2307.13702, 2023	34	2023
Question Decomposition Improves the Faithfulness of Model-Generated Reasoning A Radhakrishnan, K Nguyen, A Chen, C Chen, C Denison, D Hernandez, ... arXiv preprint arXiv:2307.11768, 2023	33*	2023
xarray S Hoyer, M Roos, H Joseph, J Magin, D Cherian, C Fitzgerald, M Hauser, ... Zenodo, 2019	28*	2019

The system can't perform the operation now. Try again later.

Articles 1–20

Citations per year

Duplicate citations

Merged citations

Add co-authorsCo-authors

Follow

Cited by